Skip to menu

missing data 처리 관련 문의...

민트레몬 2020.06.11 12:27 Views : 186



제가 missing data 때문에 이런저런 공부를 하고 있는데 명확한 답이 나오지 않아 너무 답답해 질문하나 드리고자 하니.. ㅠㅠ

시간 되시면 간단한 답변이라도 도움.. 꼭 좀 부탁드립니다.ㅠㅠ


제가 하는 분석의 핵심 독립변수가 차량소유(모델1)와 차량값(모델2)인데 (같이 투입하면 공선성 때문에 변수가 탈락하게 되어 모델을 구분함)

차량이 없는 사람은 차량값이 missing이 되는 것은 당연한 일인것 같습니다. missing비율은 35%정도 됩니다.

이 missing은 차량이 없어서 발생하는 NMAR일텐데

missing으로 두자니 분석에서 빠져버려 모델1과 모델2의 대상이 달라져버려

missing값을 0으로 처리하거나 다중대체법으로 값을 대체하는 방법을 생각하고 있는데..

차량이 없어 값이 없는게 당연한 차량값을 0이나 다른값으로 대체해서 분석하는게 괜찮은지에 대한 의문이 들어요..


만약 대체가 적절하지 않다면 이렇게 left censored된 독립변수를 처리하는 다른 기법이나 분석방법이 있을까요?


혹시 도움 주실말 있으시면 아무거나 부탁드립니다.. ㅠㅠ 죄송합니다..