개입 분석
빌드업
위 그래프는 실제 2015년 서울의 미세먼지 농도를 나타낸 시계열 데이터다. 누가 보더라도 가장 먼저 눈에 띄는 것은 50번째쯤, 그러니까 2월 말에 미세먼지 농도가 500을 넘긴 날이 있다는 점일 것이다.
데이터를 다루는데에 어느정도 익숙한 사람이라면 가장 먼저 잘못 관측된 것이 아닐까 의심하겠지만, 놀랍게도 실제로 일어난 일이었다. 아예 이 날에 대해 연구한 논문도 있으며(당시에는 아직 ‘미세먼지’라는 용어를 그렇게 많이 쓰지 않아서 제목에도 ‘황사’라는 표현을 사용했다.) 아직도 이 날에 대해 언급한 문서들을 어렵지 않게 찾아볼 수 있다.
문제는 대기과학 전공자의 입장이 아니라, 통계 분석자의 입장에서 이것을 어떻게 처리하냐는 것이다. 시계열 데이터는 일반적인 데이터와 달리 순서가 있기 때문에 대충 봤을 때 이상치라고 제외해버리면 그냥 없던 셈 치는 게 아니라 결측치가 되어버린다. 그렇다고 저 어마무시한 이상치를 넣고 아리마 모형으로 피팅하려고 하면 분석 전반에 미치는 악영향이 꽤 클 것이다.
정의 1
이를 해결하기 위한 하나의 방법이 바로 개입 분석이다. 개입 분석은 다음과 같은 수식으로 표현된다.
$$ Y_{t} = m_{t} + N_{t} $$ $N_{t}$ 는 아리마 과정이고, $m_{t}$ 는 평균을 조정해주는 항―데이터의 높낮이를 보정해주는 역할을 한다.
설명
예를 들어 위의 미세먼지를 예로 든다면, 딱 저 위치 $t_{0}$ 에서만 500 정도를 더해주도록 $m_{t}$ 를 $$ m_{t} := \begin{cases} 500 & , t = t_{0} \\ 0 & , t \ne t_{0} \end{cases} $$ 와 같이 정의하면 된다. $m_{t}$ 는 $t = t_{0}$ 외의 시점에서는 $0$ 이므로 $Y_{t} = N_{t}$ 을 피팅하면 된다. 이러한 센스에서, 보통의 아리마 모형을 이용한 분석에 $m_{t}$ 가 추가된 것은 ‘개입 분석’이라고 부를만하다. 구체적으로 $m_{t}$ 를 어떻게 정하는지는 데이터마다, 분석마다 계속 달라지며 수식적인 표현 역시 그때그때 변한다.
Cryer. (2008). Time Series Analysis: With Applications in R(2nd Edition): p250. ↩︎