교수님 안녕하세요.
교수님께서 추천해주신 책 읽어보면서 열심히 공부중인 학생입니다~
질문이 있어 문의 드립니다.
고혈압 유/무 를 설명할 수 있는 유의한 설명 변수를 찾기 위해서 다음과 같이 키, 몸무게, 성별에 대해 univariate Logistic Regression 을 수행했습니다.
fit1=glm(고혈압 유/무 ~ 키, data, family="binomial")
fit2=glm(고혈압 유/무 ~ 몸무게, data, family="binomial")
fit3=glm(고혈압 유/무 ~ 성별, data, family="binomial")
fit1, fit2, fit3 에 대해서 summary 를 해서 봤을때 이들은 p value가 0.05 이하로 유의한 설명변수인 것 처럼 보입니다.
이때 이 세가지 변수들에 대해서 각각 ROC curve 를 그리고 AUC 값을 구해봤습니다.
a1=ROC(form=고혈압 유/무 ~ 키,data=CLIN,plot="ROC")
a2=ROC(form=고혈압 유/무 ~ 몸무게,,data=CLIN,plot="ROC")
a3=ROC(form=고혈압 유/무 ~ 성별data=CLIN,plot="ROC")
각각 ROC curve들에 대해 AUC 값을 구할 수 있는데요.
세개의 AUC 값들 중에서 몸무게를 설명변수로 해서 ROC curve를 그렸을때 (a2)의 AUC 값이 가장 큰 것을 확인했습니다.
(질문) 이런 결과가 나왔을때 "몸무게가 고혈압의 유/무를 가장 잘 설명하는 설명변수이다." 라고 말할 수 있을까요?
(질문2) ROC curve를 그릴때 "설명변수가 연속변수가 아니어도 되나요? (a3처럼 설명변수로 성별(범주형 변수)을 가지고 ROC curve를 그려도 되나요? )
늘 답변 해주셔서 감사드립니다.
Comment 2
-
cardiomoon
2018.05.28 09:22
-
짱이야
2018.05.28 19:42
교수님 늘 감사합니다.
1.제 생각에는 몸무게보다 BMI를 계산해서 해보시는 것이 좋을것 같습니다
2. ROC 커브를 그리는 것은 cutoff value를 구하는 것인데 범주형 변수를 이용하면 의미가 있을까요?