Skip to menu

안녕하세요. 

R studio로 분석을 하다가 의문점이 있어 글을 남깁니다.


우선 제 dataset에 60개의 변수가 있다고 하면,

그 중 10개의 변수 (column 2-10)에 대해서만 multiple imputation을 하고 싶습니다.

그 이후 이 10개의 변수를 포함하여 propensity score matching을 MatchIt으로 할려고 합니다.


Original dataset에서 column을 추출하여 imputation 하는 것까지는 했습니다만,

이 추출된 data (10개의 column만 존재)를 original data (60개의 column이 존재하며 column 2-10은 결측치로 되어 있음)와 

어떻게 합쳐야 하는지 검색을 해봐도 잘 모르겠습니다.


Original data에 무작정 MICE package를 적용하면 

제가 보고자 하는 10개의 변수 이외에 전혀 의미가 다른 기타 변수들까지도 포함되어 imputation이 되는 것 같고, 

그러면 정확한 imputation이 되지 않을 것 같습니다 (전혀 상관 없는 변수들이 모델에 포함되니까요...?).

또한 변수가 많다보니 original dataset에서 MICE package를 무작정 실행시켰을 때 시간이 너무 오래 걸려 어차피 결과도 보지 못했습니다.


게시판 검색을 하다 보니 책에 설명이 있는 것 같기도 한데, 

현재 해외에 있어 해외 카드 때문인지 몰라도 알라딘에서도 결제가 되지 않습니다 ㅠㅠ


정리하면, original dataset에서 특정 칼럼끼리만 multiple imputation을 하고 (나머지 column은 제외)

imputed value를 기존 결측치 대신 넣어서 updated original dataset을 만드는 방법을 알고 싶습니다.


감사합니다.