로지스틱 또는 의사결정나무같은 분류모형에서 설명변수(x)를 선택하려고 합니다.
이때 설명변수가 약 3000개로 전진선택법이나 후진소거법을 바로 적용하기가 어렵습니다.
범주형 설명변수(x) 와 범주형 반응변수(y)의 경우 카이제곱 통계량을 통해 선택할 수 있을것 같은데,
연속형, 범주형 설명변수(x) 와 범주형 반응변수(y)가 같이있는 경우 가볍게 걸러낼수 있는 방법이 어떤게 있을까요?
No. | Subject | Author | Date |
---|---|---|---|
1034 | 로지스틱 회귀분석 질문드립니다. [2] | 윤이아빠 | 2018.11.06 |
1033 | forest plot 그리는 법 문의 드립니다. [1] | 강민정 | 2019.02.24 |
1032 | Rstudio 서버 미러링 방법 궁금해요 [1] | mjcho | 2018.01.11 |
1031 | 웹에서 클릭만으로 하는 R통계분석에서 궁금한점 [2] | osr33260216 | 2016.02.18 |
1030 | 웹R에서 주석 위치 바꾸는 법 [2] | alse | 2016.09.17 |
1029 | r studio server expired..여서 접속이 안됩니다 [2] | 스튜던트 | 2018.04.22 |
1028 | 보고서/플롯 옵션 관련 문의입니다. [1] | wlsrn | 2016.12.12 |
1027 | 메타분석에서 forest plot 크기 [1] | SumiHan | 2016.05.04 |
1026 | 불충분한 데이터의 생존분석에 관하여 질문드립니다. [2] | fermion503 | 2018.05.14 |
1025 | mytable 문의드립니다. [1] | seyi0918 | 2022.11.30 |
1024 | ORplot x축 표시값 변경문의 [3] | 영진 | 2017.04.28 |
1023 | mytable 사용 시 결측치의 표시 [1] | twogama2 | 2017.10.30 |
1022 | ggplot2에 관하여 | 쑤니 | 2018.12.30 |
1021 | 변수 변환 결과 해석 관련... [3] | 하늘산책 | 2015.12.11 |
1020 | 세군의 비율에 대한 비교와 사후검정에 대해 질문드립니다. | 통계장님 | 2018.07.11 |
1019 | PSM caliper 문의드립니다. | elsa | 2019.03.28 |
1018 | 로그변환 후 회귀분석 시 결과물 [1] | 반디12 | 2016.07.19 |
1017 | 상호작용효과를 폴리곤 그래프로 만들 때 오류 [3] | 반디12 | 2016.01.12 |
» | 변수선택 관련 질문 드립니다. [1] | chamchi | 2019.02.28 |
1015 | stepwise logistic 회귀에서 결측치 문제 질문드립니다. [2] | 매직하마 | 2019.02.10 |
변수가 3000개면 차라리 PCA 나 Factor analysis 를 통해서 어느 정도 정리를 하시는게 낫지 않을까 싶습니다.
3000개를 다 넣어서 얻을 이득과, 그로 인한 손해를 고려해보시는 게 좋을 것 같습니다.
게다가 결측값 처리에 대한 고민도 필요할 것 같구요.
3000개 다 넣어서 좋은 결과가 나온다고 한들...
overfitting 문제가 있을 것이며,
그 변수들이 직접적인 연관성이 있는지 아니면, 아니면 우연한 결과를 만들어낸 것인지 구별하기 어려울 것 같습니다.