Skip to menu

설명 변수 고르기에 대해서..

짱이야 2018.05.25 14:46 Views : 440

교수님 안녕하세요. 


교수님께서 추천해주신 책 읽어보면서 열심히 공부중인 학생입니다~


질문이 있어 문의 드립니다. 


고혈압 유/무 를 설명할 수 있는 유의한 설명 변수를 찾기 위해서 다음과 같이 키, 몸무게, 성별에 대해 univariate Logistic Regression 을 수행했습니다. 


fit1=glm(고혈압 유/무 ~ 키, data, family="binomial")

fit2=glm(고혈압 유/무 ~ 몸무게, data, family="binomial") 

fit3=glm(고혈압 유/무 ~ 성별, data, family="binomial")  


fit1, fit2, fit3 에 대해서 summary 를 해서 봤을때 이들은 p value가 0.05 이하로 유의한 설명변수인 것 처럼 보입니다. 


이때 이 세가지 변수들에 대해서 각각 ROC curve 를 그리고 AUC 값을 구해봤습니다.

 

a1=ROC(form=고혈압 유/무 ~ 키,data=CLIN,plot="ROC")

a2=ROC(form=고혈압 유/무 ~ 몸무게,,data=CLIN,plot="ROC")

a3=ROC(form=고혈압 유/무 ~ 성별data=CLIN,plot="ROC")


각각 ROC curve들에 대해 AUC 값을 구할 수 있는데요.  

세개의 AUC 값들 중에서 몸무게를 설명변수로 해서 ROC curve를 그렸을때 (a2)의 AUC 값이 가장 큰 것을 확인했습니다. 


(질문) 이런 결과가 나왔을때 "몸무게가  고혈압의 유/무를 가장 잘 설명하는 설명변수이다." 라고 말할 수 있을까요? 


(질문2) ROC curve를 그릴때 "설명변수가 연속변수가 아니어도 되나요? (a3처럼 설명변수로 성별(범주형 변수)을 가지고 ROC curve를 그려도 되나요? )

늘 답변 해주셔서 감사드립니다.