로지스틱 또는 의사결정나무같은 분류모형에서 설명변수(x)를 선택하려고 합니다.
이때 설명변수가 약 3000개로 전진선택법이나 후진소거법을 바로 적용하기가 어렵습니다.
범주형 설명변수(x) 와 범주형 반응변수(y)의 경우 카이제곱 통계량을 통해 선택할 수 있을것 같은데,
연속형, 범주형 설명변수(x) 와 범주형 반응변수(y)가 같이있는 경우 가볍게 걸러낼수 있는 방법이 어떤게 있을까요?
No. | Subject | Author | Date |
---|---|---|---|
1053 | 통계와 관련한 기초적인 질문 드립니다.. [2] | 감사합니다 | 2021.12.10 |
1052 | 메타분석 해석 문의 [2] | 루아로 | 2021.12.07 |
1051 | 초보라 질문드립니다 ㅜ [2] | 쵸쿄쵸쿄 | 2021.12.06 |
1050 | ㅠㅠㅠ 초보 질문입니다 [1] | 만고 | 2021.11.26 |
1049 | 라벨붙이기가 안됩니다 [1] | 찬미맘 | 2021.11.22 |
1048 | moonBook ANOVA 질문드립니다. [1] | 타쿠 | 2021.11.20 |
1047 | 3원 분할표? 에서 모델 만드는법 | 플랫슬립 | 2021.11.20 |
1046 | [회귀분석 초급 질문] [1] | 서빱스 | 2021.11.14 |
1045 | [ANOVA 분석 질문] [1] | 서빱스 | 2021.11.14 |
1044 | 대조군1과 치료군2,3,4 의 PSM 에 관해서 질문있습니다. [4] | yessul | 2021.11.11 |
1043 | 서버접속이 안됩니다. Reload [2] | silkywater | 2021.11.11 |
1042 | 메타분석 실행이 안됩니다. [1] | 애플K | 2021.11.08 |
1041 | pair plot 관련하여 질문드립니다. | ulysses11 | 2021.10.29 |
1040 | 메타분석 결과파일 다운로드 하려면 [1] | mono | 2021.10.23 |
1039 | 기본 baseline character table문의드립니다. [1] | ulysses11 | 2021.10.22 |
1038 | 이 error는 뭐가 문제인 걸까요 [1] | CSJU | 2021.10.19 |
1037 | logistic regression에서 p>0.05인 변수의 OR, p 값... | 브이콘65 | 2021.10.14 |
1036 | R 문제가 도저히 안풀려요.. [1] | 자하연미필 | 2021.10.09 |
1035 | 구조방정식에서 종속변수가 0,1로 코딩된 데이터 사용이 가능한가요? [1] | 순수엄마 | 2021.10.08 |
1034 | roc.test를 통해 AUC 비교 [2] | 나현둥 | 2021.10.07 |
변수가 3000개면 차라리 PCA 나 Factor analysis 를 통해서 어느 정도 정리를 하시는게 낫지 않을까 싶습니다.
3000개를 다 넣어서 얻을 이득과, 그로 인한 손해를 고려해보시는 게 좋을 것 같습니다.
게다가 결측값 처리에 대한 고민도 필요할 것 같구요.
3000개 다 넣어서 좋은 결과가 나온다고 한들...
overfitting 문제가 있을 것이며,
그 변수들이 직접적인 연관성이 있는지 아니면, 아니면 우연한 결과를 만들어낸 것인지 구별하기 어려울 것 같습니다.