Skip to menu

안녕하세요? 

지난번 질문했을때 많은 도움을 주셔서 문건웅 교수님께서 만드신 자료 보고 공부하고 R 에서 multiple regression을 시행해 봤습니다. 

하는 도중에 어려운 점들이 있어, 여기에 또 도움을 요청하게 되었습니다. ㅜㅜ 



1. 신뢰 구간에 관한 질문


먼저 저는 30여개의 설명 변수들에 대해 univariate logistic regression을 통해 p value 가 낮은 10개의 설명변수들을 뽑았습니다. 

이 10개의 설명변수들을 이용하여 R에서 multiple logistic regression을 수행했습니다. 


>fit=glm(종속변수~설명변수1+설명변수2+설명변수3+설명변수4+....+ 설명변수10,  data=logistic_data, family = binomial)


자료, 질문과 답변을 찾아보면 오즈비와 오즈비의 95% 신뢰구간이 어떤값을 포함하는지의 여부로 유의한 설명변수인지 아닌지를 판단하는 듯이 보입니다. 제가 봤던 자료들을 복사해서 가져와 봤습니다. (아래 답변 내용 중 빨간색으로 밑줄친 부분을 보시면 됩니다.)


Q1-1) 말씀드렸던 바와같이 답변 내용들을 보면 오즈비의 신뢰구간에 따라 유의한 설명변수인지 아닌지를 판단하는 것 처럼 보이는데요. 아래의 글들에서 어떤 경우에는 오즈비가 1을 포함할때, 어떤 경우에는 오즈비가 0을 지날때 설명변수가 유의하지 않다고 되어있습니다. 그래서 0 또는1이라는 기준값이 데이터에 따라 달라지는 것인가? 하는 생각이 들었습니다.  오즈비가 어떤 값을 포함하는지에 따라 설명변수의 유의성을 말하는 것이 어떤 기준에 따라 정해지는 것인지 알고 싶습니다. 


 - http://web-r.org/qna/16319#comment_16394 의 답변중 스튜던트 님의 첫번째 답변 


"AT_PN 의 회귀계수(-1.3352)와 표준오차(0.7450) 이 맞게 구해졌다는 가정하에, 오즈비의 95% 신뢰구간을 구해보면 exp(-1.3352-1.96*0.7450), exp(-1.3352+1.96*0.7450) -> (0.06,1.13) 으로 나옵니다. 오즈비가 1을 포함하므로 유의한 설명변수가 아니라며, 이는 p-value가 0.05보다 큰 것과 일치 합니다. "


 - http://rstudio-pubs-static.s3.amazonaws.com/190997_40fa09db8e344b19b14a687ea5de914b.html (문건웅 교수님 작성하신것) 의 회귀진단 : 회귀모형이 과연 적절한가? part 의 마지막 부분


"이 결과에서 문맹률(Illiteracy)이 1% 변하면 인구 10만 명당 살인사건 발생률이 4.14(2.38에서 5.90) 변화한다고 95%의 확신을 가지고 이야기 할 수 있으며, 1 년중 기온이 0도 이하로 떨어지는 Frost의 경우 95% 신뢰구간이 0을 지나므로 다른 변수들이 일정하다면 온도의 변화는 살인사건의 발생률과 관계가 없다고 결론내릴 수 있다. 하지만 이러한 통계적 추론에 대해 확신을 가지려면 데이터가 OLS 회귀의 가정을 만족해야만 한다. R에서는 회귀모형의 적절성을 평가하는 여러가지 도구들을 제공하고 있다."




Q1-2) 만약에 Q1-1의 답변에서 모든 데이터에 대해 신뢰 구간이 0또는 1을 지날때 설명변수가 유의하지 않다고 말하는 것이 옳다면, 

          a) multiple regression 했을때 특정 설명 변수의 p-value가 낮고,  그 변수의 신뢰구간이 0또는 1을 지나지 않으면 "유의한 설명변수"다 라고 말할 수 있는지, 

  b) 거꾸로,  multiple regression 했을때 특정 설명 변수의 p-value가 낮지만,  그 변수의 신뢰구간이 0또는 1을 지나면 "유의하지 않은 설명변수"다 라고 말할 수 있는 것인가요? 

  c) 제 경우 데이터를 가지고 multiple regression을 하고 특정 설명변수의 OR의 신뢰구간을 구해보면 하한값과 상한값이 거의 무한대에 가깝습니다. 이것은 0과 1에 전혀 근접하지도 않는 것이니까 이것을 유의한 설명변수라고 판단할 수 있을까요? 


Q1-3) Q-1 에서 제가 참고해왔던 답변들에서 저렇게 신뢰구간을 이용해서 설명변수의 유의성을 판단하는 시점이 언제인지 궁금합니다. 

 

a) univariate logistic regression으로 p-value가 낮은 몇개의 설명변수를 뽑을 때, p-value가 낮더라도 그것의 OR의 신뢰구간을 구해서 특정 기준에 만족하지 못하면 제외시키는 과정에 사용해도 되는 것인가요? 


b) 그것과는 별개로 univariate logistic regression으로 p-value가 낮은 몇개의 설명변수를 뽑아 multiple regression을 하면 새롭게 p-value를 구할 수 있습니다. 그 multiple regression결과에서 유의하다고 생각되는 설명변수를 찾기 위해 p-value가 낮은것 OR에 대한 신뢰구간의 기준에 만족하는 것을 고르는 것인가요? 


c) 또다른 가능성으로,  step 등의 함수로 multiple logistic regression 결과에서 AIC 를 기준으로 몇가지의 설명변수들을 뽑고, 그것들에 대해 신뢰구간을 구한 뒤 유의한것을 다시 추려도 되는 것인지 궁금합니다. 


쓰다보니 질문이 너무 많습니다... 저도 열심히 공부해서 여기 선생님들처럼 다른사람들에게 도움을 주는 사람이 되고 싶습니다.. ㅜㅜ

감사합니다... 

No. Subject Author Date
1074 Survival regression에서 Survival probability 그래프에서 회색음영이 무엇인지요? [2] file 케로스 2022.03.24
1073 Bonferroni's adjustment 관련 문의드립니다. [1] kjptrn 2022.03.23
1072 파일 업로드 문의드립니다. [1] ulysses11 2022.03.07
1071 x 축 변수가 어려개인 그래프를 그릴 수 있을까요? [1] 나현둥 2022.02.20
1070 독립변수가 이상한 (?) 경우의 로지스틱 회귀분석 [4] papahong 2022.02.20
1069 survival tree 분석을 하였는데 node가 한 개만 나옵니다 [1] 뒤통수조심 2022.02.10
1068 예후예측 점수 만든후 그것으로 survival 예측하는 데에 문제 겪고있습니다. [1] 권혜미 2022.02.08
1067 기초적인 통계에서 평균, 중간값, 최빈값에 대한 질문입니다. 우엉우왕 2022.02.04
1066 메타분석 plot 출력 문제와 관련해 답변해 주신 내용에 따라 다시 글을 올립니다. [2] secret endostat 2022.01.27
1065 메타분석 후 plot을 다운로드했을 때 일부 plot이 나오지 않습니다. [1] endostat 2022.01.27
1064 에러가 났는데 어떻게 해야 하나요? [1] 세렌 2022.01.21
1063 multipleROC package 질문 [2] 구현아빠 2022.01.13
1062 교수님, 맥에서 R studio 설치해서 엑셀을 불러오는데 어려움이 있습니다. [1] hslee0511 2022.01.12
1061 multiple imputation 에 관한 질문 [2] 열공빡공 2022.01.08
1060 혹시 median, IQR은 확인할수없나요? [1] ulysses11 2022.01.07
1059 Survival outcome 예측하는 모델 비교 [2] mjsong8705 2022.01.06
1058 출간오류에 대해 문의드립니다. file 구오 2021.12.27
1057 데이터 업로드 오류 [1] 보라도리 2021.12.27
1056 안녕하십니까, ROC curve AUC값 비교 (single predictors, regression models)에 대해서 여쭙습니다. [2] kjg 2021.12.25
1055 ggplot2에서 p값구하기문의 [2] MCB 2021.12.14