안녕하세요.
데이터분석 중 고민이 생겨 질문드립니다.
종속변수가 각 나라의 "정당의 투표율"입니다. 4년 혹은 5년마다 바뀌는 거지요. 매 정권마다 변화된 정당의 투표율은 따로 계산해서 카테고리를 만들었습니다.
그리고 독립변수는 "복지지출비용의 증감"입니다. 복지지출비용은 매년 책정되는 GDP대비 비율을 사용합니다. 따라서 변화량이 아니라 매년 지출비용입니다.
이럴 때, 시계열회귀를 사용해야 할까요?
자료들을 보니 '자기상관'이 생길 수 있기 때문에 시계열회귀를 해야한다는 말이 있던데.. 만약 해야한다면 어떻게 하는 건가요?
그런데 제가 주로 참고한 논문에서는 "Standard OLS Regression" 을 사용했습니다. 자신의 연구는 자기상관과 패널이분산성을 크게 염두할 필요없다는 말을 덧붙이면서요.
이 논문에서는 저와 같은 종속변수를 사용하고 있습니다.
그리고 자기상관 검정하는 방법 중에 "더빈왓슨"이라는 방법이 있던데,
R에서 "car" 패키지를 깔고 durbin.watson 명령문으로 회귀식을 테스트한 결과,
lag Autocorrelation D-W Statistic p-value
1 -0.04239016 2.084615 0.272
이런 결과가 나왔습니다. 일단 D-W는 2 정도 나오면 상관이 없다라고 나온다고 알고 있는데,
문제는 그 앞의 자기상관이라는 Autocorrelation 이라는 놈이 또 나와 있네요.
어떻게 해석해야 하나요?
감사합니다.
Durbin-Watson Test의 결과(d)는 0에서 4까지의 값을 가지게 되며 d가 2보다 작으면 양
의 상관관계, 2보다 크면 음의 상관관계가 있으며 2에 가까우면 자기상관이 없는 것인데,
그 경계값은 제공되지 않습니다.
http://web.stanford.edu/~cl int/bench/dwcrit.htm에 가봅시다. 스탠포드 대학의 웹페이지인데,
총 샘플 수에 따라서 변수의 숫자에 따라서 경계값이 조금씩 달라집니다.
T 는 총 샘플 수 이고요,
K는 독립변수의 숫자+ 절편입니다. 그러니까 독립변수가 10개이면 절편까지 합쳐서 K=11이 됩니다.
즉, T와 K값을 이용해서, dL과 dU를 읽습니다. 그리고, 이 숫자를 이용해서
양의 자기 상관, 음의 자기상관, 유보상태, 자기 상관 없음.. 이렇게 판단하게 됩니다.
더빈 왓슨이 가장 보편적으로 많이 쓰이므로, 우리 수준에서는 이정도만 알면 될 것같습니다.