시계열회귀분석에서의 허위 상관관계

시계열회귀분석에서의 허위 상관관계

Spurious correlation

정의 1

허위 상관관계는 두 데이터가 그럴싸한 상관관계를 가지는 것 같아 보이지만 실제로는 그렇지 않은 관계를 말한다.

실습 1

다음의 예시를 통해 알아보자.

20190806\_121420.png

위와 같이 두 가지 시계열 데이터가 주어져 있다고 하자. 언뜻 보기에 두 시계열은 강력한 상관관계를 가질 것만 같이 보인다. 시간에 따라 조금씩 증가하는 트렌드을 포함해서 계절성을 포함한 등락 패턴이 매우 흡사하기 때문이다.

20190806\_121428.png

실제로 CCF를 계산해보면 위와 같이 예상대로 높은 상관관계를 가지는 것으로 나타난다.

반전

6.png

그런데 이 데이터들은 사실 1994년부터 2005년까지의 우유 생산량과 전기 생산량에 로그를 취한 시계열 데이터다. 상식적으로 생각했을 때 우유와 전기 생산량은 단순히 여름에 젖이 잘 나와서, 여름에 전력을 많이 써서 늘어났을 뿐 서로가 어떤 관계를 가진다고 보기는 어렵다. 물론 어쩌면 정말로 상관관계가 있을지도 모르지만, 이런 식이라면 세상의 아주 많은 현상이 우유만으로 설명될 수 있을 것이다.

해법

이렇게 수상한 관계를 제대로 파악하는 방법으로써 사전백화를 사용할 수 있다. 사전백화란 쉽게 말해 수식적이거나 데이터의 생긴 모양 때문에 어쩔 수 없이 생기는 상관관계를 제거해주는 방법이다. 이를 이용해 데이터를 백색잡음으로 바꾸고, 그 CCF를 계산한 결과는 다음과 같다.

7.png

이는 원래 데이터간의 CCF가 단순히 수식을 통해 계산되었을 뿐, 실제로는 상관관계를 가지지 않는다는 뜻이다. 이렇듯 수치적으로만 그럴싸해서 가설검정을 통과하는 상관관계를 허위 상관관계라고 한다.


  1. Cryer. (2008). Time Series Analysis: With Applications in R(2nd Edition): p260. ↩︎

댓글