변수선택 관련 질문 드립니다.

chamchi 2019.02.28 13:53 Views : 869

로지스틱 또는 의사결정나무같은 분류모형에서 설명변수(x)를 선택하려고 합니다.

이때 설명변수가 약 3000개로 전진선택법이나 후진소거법을 바로 적용하기가 어렵습니다.

범주형 설명변수(x) 와 범주형 반응변수(y)의 경우 카이제곱 통계량을 통해 선택할 수 있을것 같은데,

연속형, 범주형 설명변수(x) 와 범주형 반응변수(y)가 같이있는 경우 가볍게 걸러낼수 있는 방법이 어떤게 있을까요?

I want to

List

Comment 1

바니파파85

2019.03.03 14:08

변수가 3000개면 차라리 PCA 나 Factor analysis 를 통해서 어느 정도 정리를 하시는게 낫지 않을까 싶습니다.

3000개를 다 넣어서 얻을 이득과, 그로 인한 손해를 고려해보시는 게 좋을 것 같습니다.

게다가 결측값 처리에 대한 고민도 필요할 것 같구요.

3000개 다 넣어서 좋은 결과가 나온다고 한들...

overfitting 문제가 있을 것이며,

그 변수들이 직접적인 연관성이 있는지 아니면, 아니면 우연한 결과를 만들어낸 것인지 구별하기 어려울 것 같습니다.

Comment

No.	Subject	Author	Date
1073	Bonferroni's adjustment 관련 문의드립니다. [1]	kjptrn	2022.03.23
1072	파일 업로드 문의드립니다. [1]	ulysses11	2022.03.07
1071	x 축 변수가 어려개인 그래프를 그릴 수 있을까요? [1]	나현둥	2022.02.20
1070	독립변수가 이상한 (?) 경우의 로지스틱 회귀분석 [4]	papahong	2022.02.20
1069	survival tree 분석을 하였는데 node가 한 개만 나옵니다 [1]	뒤통수조심	2022.02.10
1068	예후예측 점수 만든후 그것으로 survival 예측하는 데에 문제 겪고있습니다. [1]	권혜미	2022.02.08
1067	기초적인 통계에서 평균, 중간값, 최빈값에 대한 질문입니다.	우엉우왕	2022.02.04
1066	메타분석 plot 출력 문제와 관련해 답변해 주신 내용에 따라 다시 글을 올립니다. [2]	endostat	2022.01.27
1065	메타분석 후 plot을 다운로드했을 때 일부 plot이 나오지 않습니다. [1]	endostat	2022.01.27
1064	에러가 났는데 어떻게 해야 하나요? [1]	세렌	2022.01.21
1063	multipleROC package 질문 [2]	구현아빠	2022.01.13
1062	교수님, 맥에서 R studio 설치해서 엑셀을 불러오는데 어려움이 있습니다. [1]	hslee0511	2022.01.12
1061	multiple imputation 에 관한 질문 [2]	열공빡공	2022.01.08
1060	혹시 median, IQR은 확인할수없나요? [1]	ulysses11	2022.01.07
1059	Survival outcome 예측하는 모델 비교 [2]	mjsong8705	2022.01.06
1058	출간오류에 대해 문의드립니다.	구오	2021.12.27
1057	데이터 업로드 오류 [1]	보라도리	2021.12.27
1056	안녕하십니까, ROC curve AUC값 비교 (single predictors, regression models)에 대해서 여쭙습니다. [2]	kjg	2021.12.25
1055	ggplot2에서 p값구하기문의 [2]	MCB	2021.12.14
1054	기초적인 질문이지만 .. 여쭤봅니다. [2]	나현둥	2021.12.13

Write Tag

First Page 6 7 8 9 10 11 12 13 14 15 Last Page

변수선택 관련 질문 드립니다.

Comment 1

바니파파85