편자기상관함수

정의 ¹

$\left\{ Y_{t} \right\}_{t=1}^{n}$ 이 확률과정이고 시차 $k$ 에 대해서 $Y_{t-1}, \cdots , Y_{t-(k-1)}$ 로 $Y_{t}$ 를 회귀분석한 잔차를 $\widehat{e_{t}}$, $Y_{t-k}$ 를 회귀분석한 잔차를 $\widehat{e_{t-k}}$ 이라고 하자.

다음과 같이 정의된 $\phi_{kk}$ 를 시차 $k$ 의 편자기공분산함수라고 한다. $$ \phi_{kk} := \text{cor} ( \widehat{e_{t}} , \widehat{e_{t-k}} ) $$
다음과 같이 정의된 $\phi_{kk}$ 를 시차 $k$ 의 표본편자기공분산함수라고 한다. $$ \widehat{ \phi_{kk} } := {{ r_{k} - \sum_{j=1}^{k-1} \phi_{(k-1),j} r_{k-j} } \over { 1 - \sum_{j=1}^{k-1} \phi_{(k-1),j} r_{j} }} \\ \phi_{k,j} := \phi_{(k-1),j} - \phi_{kk} \phi_{(k-1),(k-j)} $$

$r_{k}$ 는 시차 $k$ 의 표본자기상관함수다.

설명

편자기상관함수란 자기상관성을 파악하되, $Y_{t}$ 와 $Y_{t-k}$ 사이에 있는 $Y_{t-1}, \cdots , Y_{t-(k-1)}$ 의 영향을 제거하고 딱 둘 사이의 관계를 파악하려고 하는 것이다. 정의에서 갑자기 회귀분석이 튀어오고 복잡하게 생겼지만 실상은 단순하다. $\widehat{e_{t}}$ 만 살펴보자. $Y_{t}$ 를 $Y_{t-1}, \cdots , Y_{t-k+1}$ 로 회귀분석한다는 것은 다음과 같은 식에 들어갈 $\beta_{1} , \cdots , \beta_{k-1}$ 를 구한다는 것이다. $$ Y_{t} = \beta_{1} Y_{t-1} + \cdots \beta_{k-1} Y_{t-(k-1)} + \widehat{e_{t}} $$ 다시 적어보면 $$ \widehat{e_{t}} = Y_{t} - \left( \beta_{1} Y_{t-1} + \cdots \beta_{k-1} Y_{t-(k-1)} \right) $$ 이는 $\widehat{e_{t}}$ 이 $Y_{t-1}, \cdots , Y_{t-(k-1)}$ 으로 설명될 부분들이 제거되었다는 뜻이다. 마찬가지로 $\widehat{e_{t-k}}$ 역시 $Y_{t-1}, \cdots , Y_{t-(k-1)}$ 으로 설명할 수 있을만한 부분은 다 제거되었기 때문에, $\text{cor} ( \widehat{e_{t}} , \widehat{e_{t-k}} )$ 을 계산한다는 것은 $Y_{t-1}, \cdots , Y_{t-(k-1)}$ 이 없어진 $Y_{t}$ 와 $Y_{t-k}$ 만의 상관관계를 보려고 하는 것이다. 다른 변수는 제쳐놓고 관심 있는 변수만을 신경쓴다는 점에서 ‘편’자기상관함수라는 이름은 적절함을 알 수 있다. [ NOTE: 아무리 개념이 단순하다고 해도 sPACF를 실제로 계산하는 건 꽤 어려웠는데, 레빈슨Levinson과 더빈Durbin이 제안한 메소드 덕에 그나마 $\widehat{ \phi_{kk} }$ 를 재귀적으로 계산할 수 있게 된 것이다. ]

수식적 설명

수식적으로는 $Y_{t}$ 가 $AR(p)$ 에서 나왔다고 생각해봤을 때 $\displaystyle Y_{t} = \sum_{k=1}^{p} \phi_{k} Y_{t-k} + e_{t}$ 이므로 $Y_{t-k}$ 의 계수 $\phi_{k}$ 를 계산하기 위해 나머지 변수를 배제할 수 있어 $AR(p)$ 모형을 찾는데에 유용하다.

sPACF $\widehat{\phi_{kk}}$ 는 PACF $\phi_{kk}$ 의 추정치고, $Y_{t}$ 가 $AR(p)$ 모형에서 나왔다면 $k>p$ 일 때 정규분포 $\displaystyle N \left( 0 , {{ 1 } \over { n }} \right)$ 을 따른다. 수식으로 나타내보면 $$ \widehat{\phi_{kk}} \sim N \left( 0 , {{ 1 } \over { n }} \right) $$ 인데, 이를 이용해 가설검정을 한다.

테스트

$\displaystyle Y_{t} = \sum_{k=1}^{p} \phi_{k} Y_{t-k} + e_{t}$ 이 주어져있고, $k = 1 , \cdots , p$ 이라고 하자.

$H_{0}$ : $AR(0) \iff \theta_{k} = 0$, 즉, $Y_{t}$ 는 자기회귀 모형을 따르지 않는다.
$H_{1}$ : $AR(k) \iff \theta_{k} \ne 0$, 즉, $Y_{t}$ 는 시차 $k$ 의 편자기상관관계를 가진다.

해석

귀무가설 하에서는 $p=0$ 과 동시에 $\widehat{\phi_{kk}} \sim N \left( 0 , {{ 1 } \over { n }} \right)$ 을 가정하고 표준오차는 $\displaystyle {{1} \over {\sqrt{n}}}$ 가 된다. 따라서 유의수준 $\alpha$ 에 대해서 가설검정을 하고 싶다면 $| \phi_{k} |$ 가 신뢰구간상한 $\displaystyle {{ z_{1 - \alpha/2} } \over { \sqrt{n} }}$ 을 넘기는지 확인하면 된다. 넘어가면 유의한 시차의 후보가 되고, 넘어가지 못하면 편자기상관관계가 없는 것으로 본다.

실습

$20190724\_101017.png$

ar1.s 데이터는 $AR(1)$ 모델에서 나온 TSA 패키지의 샘플 데이터다. 실제 아리마 모형으로 분석할 때 역시 추정치의 절대값이 표준오차의 두 배가 넘는지를 기준으로 유의한 계수인지 파악한다.

한편 TSA 패키지의 acf() 함수를 사용하면 위와 같이 여러 $k$ 에 대해 코릴로그램^correlogram을 그려준다. 굳이 머릿속으로 계산할 것 없이, 선을 넘어가면 유의한 것으로 보고 넘어가지 않으면 유의하지 않은 것으로 보아도 좋다. 기본적으로 유의수준 $5 \%$ 에서 계산된다.

편자기상관함수를 이용한 가설검정을 제대로 이해했는지 확인해보는 방법으로써 위와 같이 실제로 선을 직접 그어보는 것을 추천한다. R 에서는 고작 코드 한 줄이지만, 한 번이라도 직접 실행시켜봄으로써 $\widehat{\phi}_{kk}$ 가 정규분포를 따르며, 그 표준오차가 $\displaystyle \text{se} ( r_{k} ) = {{1} \over {\sqrt{n}}}$ 으로 구해진다는 것을 받아들일 수 있다.

코드

library(TSA)
data(ar1.s); win.graph(6,4); pacf(ar1.s)
arima(ar1.s, order=c(1,0,0))
abline(h=1.96*1/sqrt(length(ar1.s)),col='red')

같이보기

Cryer. (2008). Time Series Analysis: With Applications in R(2nd Edition): p112. ↩︎