Skip to menu

안녕하세요. 생존분석 관련하여 석사 논문을 작성하고 있는 석사 3기 대학원생입니다.


저는 6.25전쟁에 참전한 미군들의 데이터를 분석해서 전쟁 경과에 따른 미군들의 생존 분석을 해보려고 하고 있습니다.


생존분석을 위해 데이터를 받았고, 약 3만여명의 미군 사망자 데이터를 받았습니다.

(데이터에 포함된 인원들 모두 사망한 인원이며, 생존자는 데이터에 포함되지 않습니다.)


따라서 생존분석 곡선을 그리면 끝지점에서는 생존률이 0이 됩니다.

스크린샷 2018-05-14 오후 4.52.36.png



분석하는 과정에서 제가 직면한 문제점은 다음과 같습니다.


=> 미군들의 사망일(전사일)은 데이터에 기록이 되어 있지만, 미군들이 언제 한국에 전개되어 전쟁에 참전을 했는지에 대한 데이터가 없습니다.

=> 따라서 미군들이 실제 전투에 참전한 생존기간을 알 수 없습니다.


아래는 R 프로그램을 이용해 데이터에 관련된 정보를 나타낸 것입니다.


'data.frame': 36558 obs. of  57 variables:

 $ Service_No                     : Factor w/ 36574 levels "005046","00645A",..: 6512 29106 26247 9601 22422 22288 2162 26478 21427 20293 ...

 $ C                              : Factor w/ 5 levels "","G","R","V",..: 4 3 3 4 3 3 4 3 3 3 ...

 $ PTP                            : Factor w/ 3 levels "K","L","S": 2 1 1 2 1 1 2 1 1 1 ...

 $ Serve_Type                     : Factor w/ 3 levels "ACTIVE - GUARD/RESERVE",..: 1 2 2 1 2 2 1 2 2 2 ...

 $ Member_Name                    : Factor w/ 36321 levels "AARON GEORGE",..: 1 2 3 4 5 6 7 8 9 10 ...

 $ Service_Code                   : Factor w/ 4 levels "A","F","M","N": 2 1 1 1 1 1 3 1 1 1 ...

 $ Service_Name                   : Factor w/ 4 levels "AIR FORCE","ARMY",..: 1 2 2 2 2 2 3 2 2 2 ...

 $ Rank                           : Factor w/ 50 levels "1LT","1STLT",..: 12 42 37 3 15 37 45 42 15 37 ...

 $ Pay_Grade                      : Factor w/ 19 levels "E01","E02","E03",..: 11 2 3 9 4 3 5 2 4 3 ...

 $ Occupation_Code                : Factor w/ 638 levels "","      ","00001",..: 2 20 432 508 266 421 2 403 421 421 ...

 $ Occupation_Name                : Factor w/ 462 levels "","AAA AUTOMATIC WEAPONS CHIEF",..: 1 204 233 245 265 268 1 34 268 268 ...

 $ Birth_Date                     : int  19170716 19270000 19320000 19290000 19320000 19290000 19321020 19300000 19290000 19300000 ...

 $ Gender                         : Factor w/ 2 levels "F","M": 2 2 2 2 2 2 2 2 2 2 ...

 $ Home_City                      : Factor w/ 2806 levels "","ABBEVILLE",..: 1747 2546 2546 2546 2546 2546 288 2546 2546 2546 ...

 $ Home_Country                   : Factor w/ 1704 levels "","ABBEVILLE",..: 1078 1111 144 339 451 1067 943 1625 1438 1348 ...

 $ Country_Code                   : Factor w/ 7 levels "CA","DA","EI",..: 7 7 7 7 7 7 7 7 7 7 ...

 $ State_Code                     : Factor w/ 58 levels "","AK","AL","AR",..: 39 14 14 30 33 33 48 27 29 19 ...

 $ State_Name                     : Factor w/ 58 levels "","ALABAMA","ALASKA",..: 37 14 14 29 39 39 48 27 30 18 ...

 $ Marital                        : Factor w/ 6 levels "ANNULLED","DIVORCED",..: 3 5 5 5 5 5 5 5 5 5 ...

 $ Religion_Name                  : Factor w/ 2 levels "","NO RELIGIOUS PREFERENCE": 1 1 1 1 1 1 1 1 1 1 ...

 $ Religion_Code                  : Factor w/ 2 levels "","NO": 1 1 1 1 1 1 1 1 1 1 ...

 $ Race                           : Factor w/ 6 levels "AMERICAN INDIAN/ALASKA NATIVE",..: 6 6 6 6 6 6 6 6 4 6 ...

 $ Ethnic                         : Factor w/ 6 levels "CHINESE","HISPANIC OR LATINO",..: 5 5 5 5 5 5 5 5 5 5 ...

 $ Race_OMB                       : Factor w/ 8 levels "AMERICAN INDIAN/ALASKA NATIVE",..: 8 8 8 8 8 8 8 8 3 8 ...

 $ Ethnic_Group                   : Factor w/ 4 levels "ASIAN","HISPANIC",..: 4 4 4 4 4 4 4 4 4 4 ...

 $ Casualty_Circumstance          : Factor w/ 6 levels "","AIRCRAFT ENGINE FAILURE RESULTING IN A CRASH",..: 1 1 1 1 1 1 1 1 1 1 ...

 $ Deploy_City                    : Factor w/ 3 levels "","IOKOTA AIR FORCE BASE",..: 1 1 1 1 1 1 1 1 1 1 ...

 $ Deploy_State                   : Factor w/ 2 levels "","FR": 1 1 1 1 1 1 1 1 1 1 ...

 $ Deploy_Country                 : Factor w/ 8 levels "3J","3U","3Y",..: 6 7 7 5 7 5 6 5 5 7 ...

 $ Deploy_Religion                : Factor w/ 2 levels "ASIA","OVER WATER": 1 1 1 1 1 1 1 1 1 1 ...

 $ Deploy_Country                 : Factor w/ 8 levels "DEMOCRATIC PEOPLE IS REPUBLIC OF KOREA",..: 3 4 4 1 4 1 3 1 1 4 ...

 $ Unit_Name                      : Factor w/ 1880 levels ""," 5 CAV","1 4.5 ROCKET BTRY 1 4.5 ROCKET BN F",..: 606 223 382 274 77 382 1720 84 589 288 ...

 $ Duty_Code                      : Factor w/ 3 levels "C","Y","Z": 3 3 3 3 3 3 3 3 3 3 ...

 $ Process_Date                   : int  20010402 19990101 19990101 19990101 19990101 19990101 20020805 19990101 19990101 19990101 ...

 $ Death_Date                     : Date, format: "1951-04-12" "1950-07-27" "1951-03-16" "1953-01-22" ...

 $ Death_Year                     : int  1951 1950 1951 1953 1953 1951 1952 1950 1950 1950 ...

 $ War_Code                       : Factor w/ 1 level "K": 1 1 1 1 1 1 1 1 1 1 ...

 $ Incident_Type_Code             : Factor w/ 2 levels "","C": 2 2 2 2 2 2 2 2 2 2 ...

 $ Incident_Name                  : Factor w/ 3 levels "","KOREAN WAR",..: 2 2 2 2 2 2 2 2 2 2 ...

 $ Location_Name                  : Factor w/ 3 levels "","KOREA","SOUTHEAST ASIA": 2 2 2 2 2 2 2 2 2 2 ...

 $ Closure_Date                   : int  20010402 19500727 19510316 19530122 19530529 19510606 19521006 19501129 19501112 19500720 ...

 $ Aircraft_Type                  : logi  NA NA NA NA NA NA ...

 $ Hostile_Indicator              : Factor w/ 2 levels "H","NH": 1 1 1 1 1 1 1 1 1 1 ...

 $ Casualty_Type                  : Factor w/ 1 level "DECEASED": 1 1 1 1 1 1 1 1 1 1 ...

 $ Casualty_Category              : Factor w/ 6 levels "ACCIDENT","DECLARED DEAD",..: 2 5 5 5 5 5 5 5 5 5 ...

 $ Casualty_Reason                : Factor w/ 5 levels "","AIRCRAFT CRASH -- CREW (MC)",..: 1 1 1 1 1 1 1 1 1 1 ...

 $ Casualty_Name                  : logi  NA NA NA NA NA NA ...

 $ Body_Remained                  : Factor w/ 2 levels "N","Y": 2 2 2 2 2 2 2 2 2 2 ...

 $ Casualty_Closure_Name          : Factor w/ 7 levels "BURIED - CIVILIAN CEMETERY",..: 7 3 3 3 3 3 3 3 3 3 ...

 $ Wall                           : Factor w/ 3 levels "","22E 111","62E 018": 1 1 1 1 1 1 1 1 1 1 ...

 $ Casualty_Category_Name         : Factor w/ 5 levels "","CAPTURED",..: 4 1 1 1 1 1 1 1 1 1 ...

 $ Incident_Casualty_Category_Date: int  19510412 NA NA NA NA NA NA NA NA NA ...

 $ Incident_Casualty_Ct_ShortName : Factor w/ 5 levels "","MIA","MSG",..: 2 1 1 1 1 1 1 1 1 1 ...

 $ Incident_Hostile               : Factor w/ 3 levels "","H","NH": 2 1 1 1 1 1 1 1 1 1 ...

 $ Incident_Aircraft_Type         : logi  NA NA NA NA NA NA ...

 $ Survival_Length                :Class 'difftime'  atomic [1:36558] 291 32 264 942 1069 ...

  .. ..- attr(*, "units")= chr "days"

 $ Rank_Type                      : chr  "Officer" "Enlist" "Enlist" "Officer" ...


저는 전쟁 개시일(1950.6.25)부터 사망일까지의 기간을 생존일로 처리하여 분석을 실시하였는데, 이렇게 되면 미군들의 경우


전쟁에 참전하지 않고 미국 본토에 있는 기간도 생존일에 포함되어 버리게 됩니다.


따라서 


전쟁이라는 위협에 노출된 군인들의 생존율에 대한 분석 , 의 결과로 사용하기에는 문제점이 있을 것 같다는 생각이 들었습니다.

(군대 집단 내에서의 개체 사망에 따른 생존률이라고 본다면, 적용할 수 있을 것 같기도 합니다만..)


결과적으로 제가 드리고 싶은 질문은


1. 전쟁 참전일이 언제인지 모르는 군인들을 모두 1950. 6. 25일 부터 생존으로 처리하는 것은 좌측 중도절단에 해당하는 사례라고 볼 수 있는지

(좌측 중도절단은 사건의 시작이 언제인지 모르는 경우에 대해 사용하는 것으로 알고 있습니다. 위 경우도 전쟁이 발발했지만 언제 전쟁에 참전했는지 명쾌하게 알 수 없으므로

좌측 중도절단에 해당하는지 궁금합니다.)  - 제일 중요!! 

2. 만약 전쟁 시작부터 1년 기간 내에서의 사망률을 본다면, 좌측 중도절단과 우측 중도절단이 함께 된 2중 중도절단이 되는지 궁금합니다.

3. 베트남 전쟁에 대한 데이터로 있는데 (동일 Attributes) 비교 분석하려고 하니 6.25전쟁은 3년, 베트남 전쟁은 10여년에 걸쳐 전쟁을 치뤘습니다. 기간이 다른 전쟁에 대해 비교하는 것이 

타당한지 궁금합니다.(만약 정규화 하는 방법이 있다면 큰 도움이 될 것 같습니다.)


중도절단과 트런케이션 관련하여 책을 읽고, 해외 사이트 등에 문의하여도 이에 대해 명쾌하게 답변을 얻을 수 없어 이곳에 질문을 남겨봅니다. 


제 이메일은 Fermion503@gmail.com 이며, 이메일 혹은 이곳에 답변해주시면 큰 도움이 될 것 같습니다!


No. Subject Author Date
1073 Bonferroni's adjustment 관련 문의드립니다. [1] kjptrn 2022.03.23
1072 파일 업로드 문의드립니다. [1] ulysses11 2022.03.07
1071 x 축 변수가 어려개인 그래프를 그릴 수 있을까요? [1] 나현둥 2022.02.20
1070 독립변수가 이상한 (?) 경우의 로지스틱 회귀분석 [4] papahong 2022.02.20
1069 survival tree 분석을 하였는데 node가 한 개만 나옵니다 [1] 뒤통수조심 2022.02.10
1068 예후예측 점수 만든후 그것으로 survival 예측하는 데에 문제 겪고있습니다. [1] 권혜미 2022.02.08
1067 기초적인 통계에서 평균, 중간값, 최빈값에 대한 질문입니다. 우엉우왕 2022.02.04
1066 메타분석 plot 출력 문제와 관련해 답변해 주신 내용에 따라 다시 글을 올립니다. [2] secret endostat 2022.01.27
1065 메타분석 후 plot을 다운로드했을 때 일부 plot이 나오지 않습니다. [1] endostat 2022.01.27
1064 에러가 났는데 어떻게 해야 하나요? [1] 세렌 2022.01.21
1063 multipleROC package 질문 [2] 구현아빠 2022.01.13
1062 교수님, 맥에서 R studio 설치해서 엑셀을 불러오는데 어려움이 있습니다. [1] hslee0511 2022.01.12
1061 multiple imputation 에 관한 질문 [2] 열공빡공 2022.01.08
1060 혹시 median, IQR은 확인할수없나요? [1] ulysses11 2022.01.07
1059 Survival outcome 예측하는 모델 비교 [2] mjsong8705 2022.01.06
1058 출간오류에 대해 문의드립니다. file 구오 2021.12.27
1057 데이터 업로드 오류 [1] 보라도리 2021.12.27
1056 안녕하십니까, ROC curve AUC값 비교 (single predictors, regression models)에 대해서 여쭙습니다. [2] kjg 2021.12.25
1055 ggplot2에서 p값구하기문의 [2] MCB 2021.12.14
1054 기초적인 질문이지만 .. 여쭤봅니다. [2] 나현둥 2021.12.13