Skip to menu

안녕하세요. 생존분석 관련하여 석사 논문을 작성하고 있는 석사 3기 대학원생입니다.


저는 6.25전쟁에 참전한 미군들의 데이터를 분석해서 전쟁 경과에 따른 미군들의 생존 분석을 해보려고 하고 있습니다.


생존분석을 위해 데이터를 받았고, 약 3만여명의 미군 사망자 데이터를 받았습니다.

(데이터에 포함된 인원들 모두 사망한 인원이며, 생존자는 데이터에 포함되지 않습니다.)


따라서 생존분석 곡선을 그리면 끝지점에서는 생존률이 0이 됩니다.

스크린샷 2018-05-14 오후 4.52.36.png



분석하는 과정에서 제가 직면한 문제점은 다음과 같습니다.


=> 미군들의 사망일(전사일)은 데이터에 기록이 되어 있지만, 미군들이 언제 한국에 전개되어 전쟁에 참전을 했는지에 대한 데이터가 없습니다.

=> 따라서 미군들이 실제 전투에 참전한 생존기간을 알 수 없습니다.


아래는 R 프로그램을 이용해 데이터에 관련된 정보를 나타낸 것입니다.


'data.frame': 36558 obs. of  57 variables:

 $ Service_No                     : Factor w/ 36574 levels "005046","00645A",..: 6512 29106 26247 9601 22422 22288 2162 26478 21427 20293 ...

 $ C                              : Factor w/ 5 levels "","G","R","V",..: 4 3 3 4 3 3 4 3 3 3 ...

 $ PTP                            : Factor w/ 3 levels "K","L","S": 2 1 1 2 1 1 2 1 1 1 ...

 $ Serve_Type                     : Factor w/ 3 levels "ACTIVE - GUARD/RESERVE",..: 1 2 2 1 2 2 1 2 2 2 ...

 $ Member_Name                    : Factor w/ 36321 levels "AARON GEORGE",..: 1 2 3 4 5 6 7 8 9 10 ...

 $ Service_Code                   : Factor w/ 4 levels "A","F","M","N": 2 1 1 1 1 1 3 1 1 1 ...

 $ Service_Name                   : Factor w/ 4 levels "AIR FORCE","ARMY",..: 1 2 2 2 2 2 3 2 2 2 ...

 $ Rank                           : Factor w/ 50 levels "1LT","1STLT",..: 12 42 37 3 15 37 45 42 15 37 ...

 $ Pay_Grade                      : Factor w/ 19 levels "E01","E02","E03",..: 11 2 3 9 4 3 5 2 4 3 ...

 $ Occupation_Code                : Factor w/ 638 levels "","      ","00001",..: 2 20 432 508 266 421 2 403 421 421 ...

 $ Occupation_Name                : Factor w/ 462 levels "","AAA AUTOMATIC WEAPONS CHIEF",..: 1 204 233 245 265 268 1 34 268 268 ...

 $ Birth_Date                     : int  19170716 19270000 19320000 19290000 19320000 19290000 19321020 19300000 19290000 19300000 ...

 $ Gender                         : Factor w/ 2 levels "F","M": 2 2 2 2 2 2 2 2 2 2 ...

 $ Home_City                      : Factor w/ 2806 levels "","ABBEVILLE",..: 1747 2546 2546 2546 2546 2546 288 2546 2546 2546 ...

 $ Home_Country                   : Factor w/ 1704 levels "","ABBEVILLE",..: 1078 1111 144 339 451 1067 943 1625 1438 1348 ...

 $ Country_Code                   : Factor w/ 7 levels "CA","DA","EI",..: 7 7 7 7 7 7 7 7 7 7 ...

 $ State_Code                     : Factor w/ 58 levels "","AK","AL","AR",..: 39 14 14 30 33 33 48 27 29 19 ...

 $ State_Name                     : Factor w/ 58 levels "","ALABAMA","ALASKA",..: 37 14 14 29 39 39 48 27 30 18 ...

 $ Marital                        : Factor w/ 6 levels "ANNULLED","DIVORCED",..: 3 5 5 5 5 5 5 5 5 5 ...

 $ Religion_Name                  : Factor w/ 2 levels "","NO RELIGIOUS PREFERENCE": 1 1 1 1 1 1 1 1 1 1 ...

 $ Religion_Code                  : Factor w/ 2 levels "","NO": 1 1 1 1 1 1 1 1 1 1 ...

 $ Race                           : Factor w/ 6 levels "AMERICAN INDIAN/ALASKA NATIVE",..: 6 6 6 6 6 6 6 6 4 6 ...

 $ Ethnic                         : Factor w/ 6 levels "CHINESE","HISPANIC OR LATINO",..: 5 5 5 5 5 5 5 5 5 5 ...

 $ Race_OMB                       : Factor w/ 8 levels "AMERICAN INDIAN/ALASKA NATIVE",..: 8 8 8 8 8 8 8 8 3 8 ...

 $ Ethnic_Group                   : Factor w/ 4 levels "ASIAN","HISPANIC",..: 4 4 4 4 4 4 4 4 4 4 ...

 $ Casualty_Circumstance          : Factor w/ 6 levels "","AIRCRAFT ENGINE FAILURE RESULTING IN A CRASH",..: 1 1 1 1 1 1 1 1 1 1 ...

 $ Deploy_City                    : Factor w/ 3 levels "","IOKOTA AIR FORCE BASE",..: 1 1 1 1 1 1 1 1 1 1 ...

 $ Deploy_State                   : Factor w/ 2 levels "","FR": 1 1 1 1 1 1 1 1 1 1 ...

 $ Deploy_Country                 : Factor w/ 8 levels "3J","3U","3Y",..: 6 7 7 5 7 5 6 5 5 7 ...

 $ Deploy_Religion                : Factor w/ 2 levels "ASIA","OVER WATER": 1 1 1 1 1 1 1 1 1 1 ...

 $ Deploy_Country                 : Factor w/ 8 levels "DEMOCRATIC PEOPLE IS REPUBLIC OF KOREA",..: 3 4 4 1 4 1 3 1 1 4 ...

 $ Unit_Name                      : Factor w/ 1880 levels ""," 5 CAV","1 4.5 ROCKET BTRY 1 4.5 ROCKET BN F",..: 606 223 382 274 77 382 1720 84 589 288 ...

 $ Duty_Code                      : Factor w/ 3 levels "C","Y","Z": 3 3 3 3 3 3 3 3 3 3 ...

 $ Process_Date                   : int  20010402 19990101 19990101 19990101 19990101 19990101 20020805 19990101 19990101 19990101 ...

 $ Death_Date                     : Date, format: "1951-04-12" "1950-07-27" "1951-03-16" "1953-01-22" ...

 $ Death_Year                     : int  1951 1950 1951 1953 1953 1951 1952 1950 1950 1950 ...

 $ War_Code                       : Factor w/ 1 level "K": 1 1 1 1 1 1 1 1 1 1 ...

 $ Incident_Type_Code             : Factor w/ 2 levels "","C": 2 2 2 2 2 2 2 2 2 2 ...

 $ Incident_Name                  : Factor w/ 3 levels "","KOREAN WAR",..: 2 2 2 2 2 2 2 2 2 2 ...

 $ Location_Name                  : Factor w/ 3 levels "","KOREA","SOUTHEAST ASIA": 2 2 2 2 2 2 2 2 2 2 ...

 $ Closure_Date                   : int  20010402 19500727 19510316 19530122 19530529 19510606 19521006 19501129 19501112 19500720 ...

 $ Aircraft_Type                  : logi  NA NA NA NA NA NA ...

 $ Hostile_Indicator              : Factor w/ 2 levels "H","NH": 1 1 1 1 1 1 1 1 1 1 ...

 $ Casualty_Type                  : Factor w/ 1 level "DECEASED": 1 1 1 1 1 1 1 1 1 1 ...

 $ Casualty_Category              : Factor w/ 6 levels "ACCIDENT","DECLARED DEAD",..: 2 5 5 5 5 5 5 5 5 5 ...

 $ Casualty_Reason                : Factor w/ 5 levels "","AIRCRAFT CRASH -- CREW (MC)",..: 1 1 1 1 1 1 1 1 1 1 ...

 $ Casualty_Name                  : logi  NA NA NA NA NA NA ...

 $ Body_Remained                  : Factor w/ 2 levels "N","Y": 2 2 2 2 2 2 2 2 2 2 ...

 $ Casualty_Closure_Name          : Factor w/ 7 levels "BURIED - CIVILIAN CEMETERY",..: 7 3 3 3 3 3 3 3 3 3 ...

 $ Wall                           : Factor w/ 3 levels "","22E 111","62E 018": 1 1 1 1 1 1 1 1 1 1 ...

 $ Casualty_Category_Name         : Factor w/ 5 levels "","CAPTURED",..: 4 1 1 1 1 1 1 1 1 1 ...

 $ Incident_Casualty_Category_Date: int  19510412 NA NA NA NA NA NA NA NA NA ...

 $ Incident_Casualty_Ct_ShortName : Factor w/ 5 levels "","MIA","MSG",..: 2 1 1 1 1 1 1 1 1 1 ...

 $ Incident_Hostile               : Factor w/ 3 levels "","H","NH": 2 1 1 1 1 1 1 1 1 1 ...

 $ Incident_Aircraft_Type         : logi  NA NA NA NA NA NA ...

 $ Survival_Length                :Class 'difftime'  atomic [1:36558] 291 32 264 942 1069 ...

  .. ..- attr(*, "units")= chr "days"

 $ Rank_Type                      : chr  "Officer" "Enlist" "Enlist" "Officer" ...


저는 전쟁 개시일(1950.6.25)부터 사망일까지의 기간을 생존일로 처리하여 분석을 실시하였는데, 이렇게 되면 미군들의 경우


전쟁에 참전하지 않고 미국 본토에 있는 기간도 생존일에 포함되어 버리게 됩니다.


따라서 


전쟁이라는 위협에 노출된 군인들의 생존율에 대한 분석 , 의 결과로 사용하기에는 문제점이 있을 것 같다는 생각이 들었습니다.

(군대 집단 내에서의 개체 사망에 따른 생존률이라고 본다면, 적용할 수 있을 것 같기도 합니다만..)


결과적으로 제가 드리고 싶은 질문은


1. 전쟁 참전일이 언제인지 모르는 군인들을 모두 1950. 6. 25일 부터 생존으로 처리하는 것은 좌측 중도절단에 해당하는 사례라고 볼 수 있는지

(좌측 중도절단은 사건의 시작이 언제인지 모르는 경우에 대해 사용하는 것으로 알고 있습니다. 위 경우도 전쟁이 발발했지만 언제 전쟁에 참전했는지 명쾌하게 알 수 없으므로

좌측 중도절단에 해당하는지 궁금합니다.)  - 제일 중요!! 

2. 만약 전쟁 시작부터 1년 기간 내에서의 사망률을 본다면, 좌측 중도절단과 우측 중도절단이 함께 된 2중 중도절단이 되는지 궁금합니다.

3. 베트남 전쟁에 대한 데이터로 있는데 (동일 Attributes) 비교 분석하려고 하니 6.25전쟁은 3년, 베트남 전쟁은 10여년에 걸쳐 전쟁을 치뤘습니다. 기간이 다른 전쟁에 대해 비교하는 것이 

타당한지 궁금합니다.(만약 정규화 하는 방법이 있다면 큰 도움이 될 것 같습니다.)


중도절단과 트런케이션 관련하여 책을 읽고, 해외 사이트 등에 문의하여도 이에 대해 명쾌하게 답변을 얻을 수 없어 이곳에 질문을 남겨봅니다. 


제 이메일은 Fermion503@gmail.com 이며, 이메일 혹은 이곳에 답변해주시면 큰 도움이 될 것 같습니다!


No. Subject Author Date
1153 webrPSM 설치 문제 [1] hawk1227 2023.01.03
1152 정회원용서버 ExploPlots 오류 [1] 버블 2023.01.03
1151 생존분석에서 세군이상 시 사후 검정이 가능할지 여쭙습니다 [1] 정망고 2023.01.03
1150 gaze에서 show.stats Arguments가 작동하지 않습니다. [1] 김찬식 2022.12.31
1149 서버 연결이 자꾸 끊깁니다. [1] secret wave 2022.12.30
1148 PSM, full matching, cox proportional hazard model [4] file 주니 2022.12.28
1147 비밀번호 찾기 오류. [2] ezra006 2022.12.24
1146 그래프 만들던 중 오류 질문드립니다.. [1] file 헝힝헝 2022.12.14
1145 multipleROC 패키지 질문 [2] 강우성 2022.12.14
1144 웹에서 하는 R통계 (무료버전) 업로드 가능한 파일 용량이 궁금합니다. [2] 성열 2022.12.10
1143 데이터프레임 자료를 ggplot2를 이용해 꺾은선그래프 그리는 방법 [1] 다다다다빈 2022.12.06
1142 서버에서 table 만들기 에러 [1] 버블 2022.12.04
1141 mytable 문의드립니다. [1] file seyi0918 2022.11.30
1140 교수님 안녕하세요 moonbook 패키지 mycsv 오류가 나서 문의드립니다. [1] holyhyun 2022.11.15
1139 autoReg(fit, uni=TRUE)시, multivariable에 들어갈 변수들을 manual로 선택할 수 있을까요? [6] 김찬식 2022.11.14
1138 processR 패키지에서 Measurment model 정의가 가능한지요. chrik 2022.11.13
1137 Incidence rate per person-years 및 rate ratio에 대한 95% CI 산출 방법 문의 [1] file 꾸이뭉 2022.11.11
1136 서열로짓 시 평균한계효과 요다 2022.10.30
1135 서버문제로 ppt 다운로드가 안된다고 뜹니다. [5] liverim 2022.10.26
1134 메타분석 문의드립니다. file neurojang 2022.10.23