logo

더빈-왓슨 테스트 📂통계적검정

더빈-왓슨 테스트

가설검정

회귀분석을 한 이후의 잔차 $\left\{ e_{t} \right\}_{t=1}^{n}$ 가 주어져있다고 하고 $e_{t} := \rho e_{t-1} + \nu_{t}$ 꼴로 두자.

설명

경험적 해석

더빈-왓슨 테스트회귀분석잔차의 독립성을 확인할 때 쓰이는 테스트로써, 잔차끼리 자기상관성이 있는지 없는지를 판단한다. 검정통계량은 $$ d := {{ \sum_{t=2}^{n} \left( e_{t} - e_{t-1} \right)^2 } \over {\sum_{t=1}^{n} e_{t}^{2} }} $$ 와 같이 구해지며, 항상 $0 \le d \le 4$ 다. $d$ 의 값은 다음과 같이 해석된다:

  • $d \approx 0$ : 잔차끼리 양의 상관관계를 가진다.
  • $d \approx 2$ : 잔차끼리 상관관계를 가지지 않는다.
  • $d \approx 4$ : 잔차끼리 음의 상관관계를 가진다.

물론 검정을 할 땐 유의수준 $\alpha$ 가 주어져서 하한 $d_{L , \alpha}$ 과 상한 $d_{U , \alpha}$ 를 구해서 비교한다.

주의사항

더빈-왓슨 테스트는 보기보다 사용하기 까다로운 테스트인데, 주의사항은 다음과 같다:

  1. $e_{t}$ 와 $e_{t-1}$ 만의 상관관계를 파악할 뿐 $e_{t}$ 와 $e_{t-k}$ 에 대해서는 알 수 없다. 많은 시차 $k$ 에 대해 확인하기 위해서는 일반화된 더빈-왓슨 테스트를 사용해야한다.
  2. 잔차끼리 자기상관성이 있다면 독립이 아니지만, 자기상관성이 없다고 독립은 아니다.
  3. 거의 필요 없다. 더빈-왓슨 테스트를 신뢰하지 않는 건 아니지만 1,2 같은 단점들 때문에 정확해봤자 분석을 정당화하는데 별 도움이 안되기 때문이다.
  4. 아리마 모델의 잔차에는 적용할 수 없다. 따라서 자기상관함수 혹은 륭-박스 테스트를 사용해야한다.

물론 이러한 단점들이 있어도 테스트 자체는 쉽고 만만해서 아직도 많은 교과서에서 소개하고 쓰이고 있다. 단점들을 요약하자면 ‘써도 되는데 너무 믿지는 마라’정도가 되겠다. 아직 통계를 잘 모르는 학습자에게는 더더욱 그렇다. 쓰는 건 좋은데, 그 용도와 한계를 정확하게 알고 써야한다. 독립성은 고작 더빈-왓슨 테스트 하나 통과했다고 쉽게 증명할 수 있는 게 아니다.

코드

실습

R에서는 lmtest 패키지의 dwtest() 함수를 사용해서 간단하게 더빈-왓슨 테스트를 해볼 수 있다.

Rplot.png

언뜻 보아도 잔차는 독립적인데, 다음과 같이 검정해보면 실제로 자기상관성이 없음을 확인할 수 있다.

20190730\_111316.png

전체코드

library(lmtest)
 
out<-lm(waiting~eruptions,data=faithful)
win.graph(6,3); plot(rstudent(out),main="residuals")
dwtest(out)