로지스틱 또는 의사결정나무같은 분류모형에서 설명변수(x)를 선택하려고 합니다.
이때 설명변수가 약 3000개로 전진선택법이나 후진소거법을 바로 적용하기가 어렵습니다.
범주형 설명변수(x) 와 범주형 반응변수(y)의 경우 카이제곱 통계량을 통해 선택할 수 있을것 같은데,
연속형, 범주형 설명변수(x) 와 범주형 반응변수(y)가 같이있는 경우 가볍게 걸러낼수 있는 방법이 어떤게 있을까요?
No. | Subject | Author | Date |
---|---|---|---|
1114 | 성향점수 맞추기 [3] | alse | 2016.05.25 |
1113 | 아래에 올렸었는데요,, 5Y overall survival 구하는 법이요. [2] | 난둥 | 2016.05.26 |
1112 | 로지스틱 회귀 분석에서.. [1] | 최00 | 2016.05.27 |
1111 | 기본표를 만드는데 file이 이상하게 읽히는 것 같습니다. | 매일이5월 | 2016.06.02 |
1110 | 파일 불러오기 에러 [2] | 매일이5월 | 2016.06.02 |
1109 | 파일 불러오기 오류 [2] | 매일이5월 | 2016.06.02 |
1108 | RPubs에 있는 ROC curve analysis by cardiomoon [2] | hawk1227 | 2016.06.02 |
1107 | R 그래프 옮기기 [2] | hawk1227 | 2016.06.03 |
1106 | 생존분석 그래프 x축 시간 [3] | alse | 2016.06.07 |
1105 | 자료업로드에러 [3] | dejavu730 | 2016.06.07 |
1104 | 학생강의 project1 | cardiomoon | 2016.06.07 |
1103 | 결측치 처리에 대한 질문입니다. [2] | 매일이5월 | 2016.06.07 |
1102 | IBM의 R 컨소시엄 가입 | Ben | 2016.06.08 |
1101 | 서버 접속이 안됩니다 [2] | kim | 2016.06.08 |
1100 | binary data 군집분석 [2] | 노가리 | 2016.06.08 |
1099 | 생존 분석시 문제 [3] | selteen | 2016.06.09 |
1098 | 생존 분석을 하는데 질문이 있어 게시판에 글을 올립니다. [1] | namuhanayeyo | 2016.06.11 |
1097 | 독립(설명)변수 비정규 분포시. logistic regression 문의입니다. [1] | 매일이5월 | 2016.06.16 |
1096 | Simple linear regression 에서 설명변수의 특성 [3] | 매일이5월 | 2016.06.16 |
1095 | Rstudio 에러 문제 [2] | 화모기 | 2016.06.16 |
변수가 3000개면 차라리 PCA 나 Factor analysis 를 통해서 어느 정도 정리를 하시는게 낫지 않을까 싶습니다.
3000개를 다 넣어서 얻을 이득과, 그로 인한 손해를 고려해보시는 게 좋을 것 같습니다.
게다가 결측값 처리에 대한 고민도 필요할 것 같구요.
3000개 다 넣어서 좋은 결과가 나온다고 한들...
overfitting 문제가 있을 것이며,
그 변수들이 직접적인 연관성이 있는지 아니면, 아니면 우연한 결과를 만들어낸 것인지 구별하기 어려울 것 같습니다.