logo

편자기상관함수 📂통계적분석

편자기상관함수

정의 1

{Yt}t=1n\left\{ Y_{t} \right\}_{t=1}^{n}확률과정이고 시차 kk 에 대해서 Yt1,,Yt(k1)Y_{t-1}, \cdots , Y_{t-(k-1)}YtY_{t}회귀분석한 잔차를 et^\widehat{e_{t}}, YtkY_{t-k}회귀분석한 잔차를 etk^\widehat{e_{t-k}} 이라고 하자.

  1. 다음과 같이 정의된 ϕkk\phi_{kk} 를 시차 kk편자기공분산함수라고 한다. ϕkk:=cor(et^,etk^) \phi_{kk} := \text{cor} ( \widehat{e_{t}} , \widehat{e_{t-k}} )
  2. 다음과 같이 정의된 ϕkk\phi_{kk} 를 시차 kk표본편자기공분산함수라고 한다. ϕkk^:=rkj=1k1ϕ(k1),jrkj1j=1k1ϕ(k1),jrjϕk,j:=ϕ(k1),jϕkkϕ(k1),(kj) \widehat{ \phi_{kk} } := {{ r_{k} - \sum_{j=1}^{k-1} \phi_{(k-1),j} r_{k-j} } \over { 1 - \sum_{j=1}^{k-1} \phi_{(k-1),j} r_{j} }} \\ \phi_{k,j} := \phi_{(k-1),j} - \phi_{kk} \phi_{(k-1),(k-j)}

설명

편자기상관함수란 자기상관성을 파악하되, YtY_{t}YtkY_{t-k} 사이에 있는 Yt1,,Yt(k1)Y_{t-1}, \cdots , Y_{t-(k-1)} 의 영향을 제거하고 딱 둘 사이의 관계를 파악하려고 하는 것이다. 정의에서 갑자기 회귀분석이 튀어오고 복잡하게 생겼지만 실상은 단순하다. et^\widehat{e_{t}} 만 살펴보자. YtY_{t}Yt1,,Ytk+1Y_{t-1}, \cdots , Y_{t-k+1} 로 회귀분석한다는 것은 다음과 같은 식에 들어갈 β1,,βk1\beta_{1} , \cdots , \beta_{k-1} 를 구한다는 것이다. Yt=β1Yt1+βk1Yt(k1)+et^ Y_{t} = \beta_{1} Y_{t-1} + \cdots \beta_{k-1} Y_{t-(k-1)} + \widehat{e_{t}} 다시 적어보면 et^=Yt(β1Yt1+βk1Yt(k1)) \widehat{e_{t}} = Y_{t} - \left( \beta_{1} Y_{t-1} + \cdots \beta_{k-1} Y_{t-(k-1)} \right) 이는 et^\widehat{e_{t}}Yt1,,Yt(k1)Y_{t-1}, \cdots , Y_{t-(k-1)} 으로 설명될 부분들이 제거되었다는 뜻이다. 마찬가지로 etk^\widehat{e_{t-k}} 역시 Yt1,,Yt(k1)Y_{t-1}, \cdots , Y_{t-(k-1)} 으로 설명할 수 있을만한 부분은 다 제거되었기 때문에, cor(et^,etk^)\text{cor} ( \widehat{e_{t}} , \widehat{e_{t-k}} ) 을 계산한다는 것은 Yt1,,Yt(k1)Y_{t-1}, \cdots , Y_{t-(k-1)} 이 없어진 YtY_{t}YtkY_{t-k} 만의 상관관계를 보려고 하는 것이다. 다른 변수는 제쳐놓고 관심 있는 변수만을 신경쓴다는 점에서 ‘편’자기상관함수라는 이름은 적절함을 알 수 있다. [ NOTE: 아무리 개념이 단순하다고 해도 sPACF를 실제로 계산하는 건 꽤 어려웠는데, 레빈슨Levinson과 더빈Durbin이 제안한 메소드 덕에 그나마 ϕkk^\widehat{ \phi_{kk} } 를 재귀적으로 계산할 수 있게 된 것이다. ]

수식적 설명

수식적으로는 YtY_{t}AR(p)AR(p) 에서 나왔다고 생각해봤을 때 Yt=k=1pϕkYtk+et\displaystyle Y_{t} = \sum_{k=1}^{p} \phi_{k} Y_{t-k} + e_{t} 이므로 YtkY_{t-k} 의 계수 ϕk\phi_{k} 를 계산하기 위해 나머지 변수를 배제할 수 있어 AR(p)AR(p) 모형을 찾는데에 유용하다.

sPACF ϕkk^\widehat{\phi_{kk}} 는 PACF ϕkk\phi_{kk} 의 추정치고, YtY_{t}AR(p)AR(p) 모형에서 나왔다면 k>pk>p 일 때 정규분포 N(0,1n)\displaystyle N \left( 0 , {{ 1 } \over { n }} \right) 을 따른다. 수식으로 나타내보면 ϕkk^N(0,1n) \widehat{\phi_{kk}} \sim N \left( 0 , {{ 1 } \over { n }} \right) 인데, 이를 이용해 가설검정을 한다.

테스트

Yt=k=1pϕkYtk+et\displaystyle Y_{t} = \sum_{k=1}^{p} \phi_{k} Y_{t-k} + e_{t} 이 주어져있고, k=1,,pk = 1 , \cdots , p 이라고 하자.

  • H0H_{0} : AR(0)    θk=0AR(0) \iff \theta_{k} = 0, 즉, YtY_{t} 는 자기회귀 모형을 따르지 않는다.
  • H1H_{1} : AR(k)    θk0AR(k) \iff \theta_{k} \ne 0, 즉, YtY_{t} 는 시차 kk 의 편자기상관관계를 가진다.

해석

귀무가설 하에서는 p=0p=0 과 동시에 ϕkk^N(0,1n)\widehat{\phi_{kk}} \sim N \left( 0 , {{ 1 } \over { n }} \right) 을 가정하고 표준오차1n\displaystyle {{1} \over {\sqrt{n}}} 가 된다. 따라서 유의수준 α\alpha 에 대해서 가설검정을 하고 싶다면 ϕk| \phi_{k} | 가 신뢰구간상한 z1α/2n\displaystyle {{ z_{1 - \alpha/2} } \over { \sqrt{n} }} 을 넘기는지 확인하면 된다. 넘어가면 유의한 시차의 후보가 되고, 넘어가지 못하면 편자기상관관계가 없는 것으로 본다.

실습

20190724\_101017.png

ar1.s 데이터는 AR(1)AR(1) 모델에서 나온 TSA 패키지의 샘플 데이터다. 실제 아리마 모형으로 분석할 때 역시 추정치의 절대값이 표준오차의 두 배가 넘는지를 기준으로 유의한 계수인지 파악한다.

3.png

한편 TSA 패키지의 acf() 함수를 사용하면 위와 같이 여러 kk 에 대해 코릴로그램correlogram을 그려준다. 굳이 머릿속으로 계산할 것 없이, 선을 넘어가면 유의한 것으로 보고 넘어가지 않으면 유의하지 않은 것으로 보아도 좋다. 기본적으로 유의수준 5%5 \% 에서 계산된다.

4.png

편자기상관함수를 이용한 가설검정을 제대로 이해했는지 확인해보는 방법으로써 위와 같이 실제로 선을 직접 그어보는 것을 추천한다. R 에서는 고작 코드 한 줄이지만, 한 번이라도 직접 실행시켜봄으로써 ϕ^kk\widehat{\phi}_{kk} 가 정규분포를 따르며, 그 표준오차se(rk)=1n\displaystyle \text{se} ( r_{k} ) = {{1} \over {\sqrt{n}}} 으로 구해진다는 것을 받아들일 수 있다.

코드

library(TSA)
data(ar1.s); win.graph(6,4); pacf(ar1.s)
arima(ar1.s, order=c(1,0,0))
abline(h=1.96*1/sqrt(length(ar1.s)),col='red')

같이보기


  1. Cryer. (2008). Time Series Analysis: With Applications in R(2nd Edition): p112. ↩︎