brain 의 subarachnoid hemorrhage 환자에서 chronic hydrocephalus 의 위험요인에 대해 알아볼려고 합니다 .
카이제곱검정으로 몇몇 의미 있는 위험요소들을 구했고
이렇게 나온 위험요소들을 독립변수로 하여 다시 multivariate logistic regression 을 시행하려고 합니다.
그런데 독립변수 중 Fisher grade 와 intraventricular hemorrhage (IVH)가 있는데
Fisher grade (I~IV)중 IVH 가 있는 경우 grade IV 로 분류하기 때문에 두 독립변수 가 서로 상관성을 가지게 됩니다.
이럴 경우 두 독립변수를 포함하는 독립변수들로 로지스틱 회귀분석을 시행하는 것이 의미가 있는지 질문드립니다.
Comment 2
-
cardiomoon
2016.11.13 23:24
-
정태석
2016.11.14 08:18
자세한 설명 감사합니다.
검정 시행 후 결정해야 할 것 같습니다.
원래 상관관계가 높은 변수들은 다중공선성이 있으므로 같이 넣지 않는 것이 좋겠습니다. 하지만 이 두변수가 다중공선성을 일으키는 지는 확실하지 않네요.
car패키지의 vif()함수를 써서 다중공선성 문제가 있는지 검정할수 있습니다.
먼저 모형을 만들고
fit=glm(...)
require(car)
vif(fit)해보세요. sqrt(vif(fit))>2 해보시면 다중공선성이 있는지 알 수 있습니다.
제가 쓴 의학논문 작성을 위한 R통계와 그래프 291페이지를 참조하세요