메뉴 건너뛰기

웹에서 하는 R 통계

안녕하세요. 생존분석 관련하여 석사 논문을 작성하고 있는 석사 3기 대학원생입니다.


저는 6.25전쟁에 참전한 미군들의 데이터를 분석해서 전쟁 경과에 따른 미군들의 생존 분석을 해보려고 하고 있습니다.


생존분석을 위해 데이터를 받았고, 약 3만여명의 미군 사망자 데이터를 받았습니다.

(데이터에 포함된 인원들 모두 사망한 인원이며, 생존자는 데이터에 포함되지 않습니다.)


따라서 생존분석 곡선을 그리면 끝지점에서는 생존률이 0이 됩니다.

스크린샷 2018-05-14 오후 4.52.36.png



분석하는 과정에서 제가 직면한 문제점은 다음과 같습니다.


=> 미군들의 사망일(전사일)은 데이터에 기록이 되어 있지만, 미군들이 언제 한국에 전개되어 전쟁에 참전을 했는지에 대한 데이터가 없습니다.

=> 따라서 미군들이 실제 전투에 참전한 생존기간을 알 수 없습니다.


아래는 R 프로그램을 이용해 데이터에 관련된 정보를 나타낸 것입니다.


'data.frame': 36558 obs. of  57 variables:

 $ Service_No                     : Factor w/ 36574 levels "005046","00645A",..: 6512 29106 26247 9601 22422 22288 2162 26478 21427 20293 ...

 $ C                              : Factor w/ 5 levels "","G","R","V",..: 4 3 3 4 3 3 4 3 3 3 ...

 $ PTP                            : Factor w/ 3 levels "K","L","S": 2 1 1 2 1 1 2 1 1 1 ...

 $ Serve_Type                     : Factor w/ 3 levels "ACTIVE - GUARD/RESERVE",..: 1 2 2 1 2 2 1 2 2 2 ...

 $ Member_Name                    : Factor w/ 36321 levels "AARON GEORGE",..: 1 2 3 4 5 6 7 8 9 10 ...

 $ Service_Code                   : Factor w/ 4 levels "A","F","M","N": 2 1 1 1 1 1 3 1 1 1 ...

 $ Service_Name                   : Factor w/ 4 levels "AIR FORCE","ARMY",..: 1 2 2 2 2 2 3 2 2 2 ...

 $ Rank                           : Factor w/ 50 levels "1LT","1STLT",..: 12 42 37 3 15 37 45 42 15 37 ...

 $ Pay_Grade                      : Factor w/ 19 levels "E01","E02","E03",..: 11 2 3 9 4 3 5 2 4 3 ...

 $ Occupation_Code                : Factor w/ 638 levels "","      ","00001",..: 2 20 432 508 266 421 2 403 421 421 ...

 $ Occupation_Name                : Factor w/ 462 levels "","AAA AUTOMATIC WEAPONS CHIEF",..: 1 204 233 245 265 268 1 34 268 268 ...

 $ Birth_Date                     : int  19170716 19270000 19320000 19290000 19320000 19290000 19321020 19300000 19290000 19300000 ...

 $ Gender                         : Factor w/ 2 levels "F","M": 2 2 2 2 2 2 2 2 2 2 ...

 $ Home_City                      : Factor w/ 2806 levels "","ABBEVILLE",..: 1747 2546 2546 2546 2546 2546 288 2546 2546 2546 ...

 $ Home_Country                   : Factor w/ 1704 levels "","ABBEVILLE",..: 1078 1111 144 339 451 1067 943 1625 1438 1348 ...

 $ Country_Code                   : Factor w/ 7 levels "CA","DA","EI",..: 7 7 7 7 7 7 7 7 7 7 ...

 $ State_Code                     : Factor w/ 58 levels "","AK","AL","AR",..: 39 14 14 30 33 33 48 27 29 19 ...

 $ State_Name                     : Factor w/ 58 levels "","ALABAMA","ALASKA",..: 37 14 14 29 39 39 48 27 30 18 ...

 $ Marital                        : Factor w/ 6 levels "ANNULLED","DIVORCED",..: 3 5 5 5 5 5 5 5 5 5 ...

 $ Religion_Name                  : Factor w/ 2 levels "","NO RELIGIOUS PREFERENCE": 1 1 1 1 1 1 1 1 1 1 ...

 $ Religion_Code                  : Factor w/ 2 levels "","NO": 1 1 1 1 1 1 1 1 1 1 ...

 $ Race                           : Factor w/ 6 levels "AMERICAN INDIAN/ALASKA NATIVE",..: 6 6 6 6 6 6 6 6 4 6 ...

 $ Ethnic                         : Factor w/ 6 levels "CHINESE","HISPANIC OR LATINO",..: 5 5 5 5 5 5 5 5 5 5 ...

 $ Race_OMB                       : Factor w/ 8 levels "AMERICAN INDIAN/ALASKA NATIVE",..: 8 8 8 8 8 8 8 8 3 8 ...

 $ Ethnic_Group                   : Factor w/ 4 levels "ASIAN","HISPANIC",..: 4 4 4 4 4 4 4 4 4 4 ...

 $ Casualty_Circumstance          : Factor w/ 6 levels "","AIRCRAFT ENGINE FAILURE RESULTING IN A CRASH",..: 1 1 1 1 1 1 1 1 1 1 ...

 $ Deploy_City                    : Factor w/ 3 levels "","IOKOTA AIR FORCE BASE",..: 1 1 1 1 1 1 1 1 1 1 ...

 $ Deploy_State                   : Factor w/ 2 levels "","FR": 1 1 1 1 1 1 1 1 1 1 ...

 $ Deploy_Country                 : Factor w/ 8 levels "3J","3U","3Y",..: 6 7 7 5 7 5 6 5 5 7 ...

 $ Deploy_Religion                : Factor w/ 2 levels "ASIA","OVER WATER": 1 1 1 1 1 1 1 1 1 1 ...

 $ Deploy_Country                 : Factor w/ 8 levels "DEMOCRATIC PEOPLE IS REPUBLIC OF KOREA",..: 3 4 4 1 4 1 3 1 1 4 ...

 $ Unit_Name                      : Factor w/ 1880 levels ""," 5 CAV","1 4.5 ROCKET BTRY 1 4.5 ROCKET BN F",..: 606 223 382 274 77 382 1720 84 589 288 ...

 $ Duty_Code                      : Factor w/ 3 levels "C","Y","Z": 3 3 3 3 3 3 3 3 3 3 ...

 $ Process_Date                   : int  20010402 19990101 19990101 19990101 19990101 19990101 20020805 19990101 19990101 19990101 ...

 $ Death_Date                     : Date, format: "1951-04-12" "1950-07-27" "1951-03-16" "1953-01-22" ...

 $ Death_Year                     : int  1951 1950 1951 1953 1953 1951 1952 1950 1950 1950 ...

 $ War_Code                       : Factor w/ 1 level "K": 1 1 1 1 1 1 1 1 1 1 ...

 $ Incident_Type_Code             : Factor w/ 2 levels "","C": 2 2 2 2 2 2 2 2 2 2 ...

 $ Incident_Name                  : Factor w/ 3 levels "","KOREAN WAR",..: 2 2 2 2 2 2 2 2 2 2 ...

 $ Location_Name                  : Factor w/ 3 levels "","KOREA","SOUTHEAST ASIA": 2 2 2 2 2 2 2 2 2 2 ...

 $ Closure_Date                   : int  20010402 19500727 19510316 19530122 19530529 19510606 19521006 19501129 19501112 19500720 ...

 $ Aircraft_Type                  : logi  NA NA NA NA NA NA ...

 $ Hostile_Indicator              : Factor w/ 2 levels "H","NH": 1 1 1 1 1 1 1 1 1 1 ...

 $ Casualty_Type                  : Factor w/ 1 level "DECEASED": 1 1 1 1 1 1 1 1 1 1 ...

 $ Casualty_Category              : Factor w/ 6 levels "ACCIDENT","DECLARED DEAD",..: 2 5 5 5 5 5 5 5 5 5 ...

 $ Casualty_Reason                : Factor w/ 5 levels "","AIRCRAFT CRASH -- CREW (MC)",..: 1 1 1 1 1 1 1 1 1 1 ...

 $ Casualty_Name                  : logi  NA NA NA NA NA NA ...

 $ Body_Remained                  : Factor w/ 2 levels "N","Y": 2 2 2 2 2 2 2 2 2 2 ...

 $ Casualty_Closure_Name          : Factor w/ 7 levels "BURIED - CIVILIAN CEMETERY",..: 7 3 3 3 3 3 3 3 3 3 ...

 $ Wall                           : Factor w/ 3 levels "","22E 111","62E 018": 1 1 1 1 1 1 1 1 1 1 ...

 $ Casualty_Category_Name         : Factor w/ 5 levels "","CAPTURED",..: 4 1 1 1 1 1 1 1 1 1 ...

 $ Incident_Casualty_Category_Date: int  19510412 NA NA NA NA NA NA NA NA NA ...

 $ Incident_Casualty_Ct_ShortName : Factor w/ 5 levels "","MIA","MSG",..: 2 1 1 1 1 1 1 1 1 1 ...

 $ Incident_Hostile               : Factor w/ 3 levels "","H","NH": 2 1 1 1 1 1 1 1 1 1 ...

 $ Incident_Aircraft_Type         : logi  NA NA NA NA NA NA ...

 $ Survival_Length                :Class 'difftime'  atomic [1:36558] 291 32 264 942 1069 ...

  .. ..- attr(*, "units")= chr "days"

 $ Rank_Type                      : chr  "Officer" "Enlist" "Enlist" "Officer" ...


저는 전쟁 개시일(1950.6.25)부터 사망일까지의 기간을 생존일로 처리하여 분석을 실시하였는데, 이렇게 되면 미군들의 경우


전쟁에 참전하지 않고 미국 본토에 있는 기간도 생존일에 포함되어 버리게 됩니다.


따라서 


전쟁이라는 위협에 노출된 군인들의 생존율에 대한 분석 , 의 결과로 사용하기에는 문제점이 있을 것 같다는 생각이 들었습니다.

(군대 집단 내에서의 개체 사망에 따른 생존률이라고 본다면, 적용할 수 있을 것 같기도 합니다만..)


결과적으로 제가 드리고 싶은 질문은


1. 전쟁 참전일이 언제인지 모르는 군인들을 모두 1950. 6. 25일 부터 생존으로 처리하는 것은 좌측 중도절단에 해당하는 사례라고 볼 수 있는지

(좌측 중도절단은 사건의 시작이 언제인지 모르는 경우에 대해 사용하는 것으로 알고 있습니다. 위 경우도 전쟁이 발발했지만 언제 전쟁에 참전했는지 명쾌하게 알 수 없으므로

좌측 중도절단에 해당하는지 궁금합니다.)  - 제일 중요!! 

2. 만약 전쟁 시작부터 1년 기간 내에서의 사망률을 본다면, 좌측 중도절단과 우측 중도절단이 함께 된 2중 중도절단이 되는지 궁금합니다.

3. 베트남 전쟁에 대한 데이터로 있는데 (동일 Attributes) 비교 분석하려고 하니 6.25전쟁은 3년, 베트남 전쟁은 10여년에 걸쳐 전쟁을 치뤘습니다. 기간이 다른 전쟁에 대해 비교하는 것이 

타당한지 궁금합니다.(만약 정규화 하는 방법이 있다면 큰 도움이 될 것 같습니다.)


중도절단과 트런케이션 관련하여 책을 읽고, 해외 사이트 등에 문의하여도 이에 대해 명쾌하게 답변을 얻을 수 없어 이곳에 질문을 남겨봅니다. 


제 이메일은 Fermion503@gmail.com 이며, 이메일 혹은 이곳에 답변해주시면 큰 도움이 될 것 같습니다!


번호 제목 글쓴이 날짜 조회 수
공지 묻고답하기 게시판을 운영합니다 [1] cardiomoon 2015.04.20 592
333 Logistic regression시 error에 대해 질문드립니다. [1] namuhanayeyo 2018.07.07 62
332 분석 에러 [2] file iamswchoi 2018.07.07 144
331 교수님 univariate, multivariate analysis 관련하여 질문드립니다. [2] 우루루루 2018.07.03 95
330 ROC 커브 분석 관련 질문 드립니다. [1] odd82 2018.06.30 69
329 ggkm download [1] yongjuncha 2018.06.13 203
328 고수분들의 도움이 필요합니다!!!! [2] file 강구몬 2018.06.13 62
327 MetaAnalyiss를 다루고 있는 책이 있는지요? [2] 에구머니나 2018.06.11 148
326 shiny 한글 문제 문의드립니다. [3] suny 2018.06.07 190
325 단독망에서 패키지 실행 질문있습니다. [1] 김지은22 2018.06.05 77
324 Hodges-Lehman estimator [1] 김밥친구 2018.06.04 92
323 교수님 안녕하세요 질문이 있습니다 [1] file 세발낙지 2018.06.03 626
322 범주형변수와 비정규분포 연속형 변수 간 관계를 볼때 이변량 상관관계 분석이 가능한지요? [1] 아라리 2018.05.30 316
321 안녕하세요 공부하던 중 질문드립니다. [1] Ikarus86 2018.05.27 749
320 선생님 책으로 공부중인데..질문있습니다. [1] jsus 2018.05.26 244
319 설명 변수 고르기에 대해서.. [2] 짱이야 2018.05.25 63
318 WebR관련 문의드립니다. [1] neurojang 2018.05.17 3181
317 nomogram [5] 횽횽 2018.05.16 317
» 불충분한 데이터의 생존분석에 관하여 질문드립니다. [2] file fermion503 2018.05.14 164
315 교수님 안녕하세요 서버 구축관련하여 질문드립니다. [2] 우루루루 2018.05.11 493
314 다중회귀 관련 여러가지 질문들이 있습니다. [2] 짱이야 2018.05.04 120