logo

개입 분석 📂통계적분석

개입 분석

빌드업

1.png

위 그래프는 실제 2015년 서울의 미세먼지 농도를 나타낸 시계열 데이터다. 누가 보더라도 가장 먼저 눈에 띄는 것은 50번째쯤, 그러니까 2월 말에 미세먼지 농도가 500을 넘긴 날이 있다는 점일 것이다.

20190807\_163906.png

데이터를 다루는데에 어느정도 익숙한 사람이라면 가장 먼저 잘못 관측된 것이 아닐까 의심하겠지만, 놀랍게도 실제로 일어난 일이었다. 아예 이 날에 대해 연구한 논문도 있으며(당시에는 아직 ‘미세먼지’라는 용어를 그렇게 많이 쓰지 않아서 제목에도 ‘황사’라는 표현을 사용했다.) 아직도 이 날에 대해 언급한 문서들을 어렵지 않게 찾아볼 수 있다.

문제는 대기과학 전공자의 입장이 아니라, 통계 분석자의 입장에서 이것을 어떻게 처리하냐는 것이다. 시계열 데이터는 일반적인 데이터와 달리 순서가 있기 때문에 대충 봤을 때 이상치라고 제외해버리면 그냥 없던 셈 치는 게 아니라 결측치가 되어버린다. 그렇다고 저 어마무시한 이상치를 넣고 아리마 모형으로 피팅하려고 하면 분석 전반에 미치는 악영향이 꽤 클 것이다.

정의 1

이를 해결하기 위한 하나의 방법이 바로 개입 분석이다. 개입 분석은 다음과 같은 수식으로 표현된다.

$$ Y_{t} = m_{t} + N_{t} $$ $N_{t}$ 는 아리마 과정이고, $m_{t}$ 는 평균을 조정해주는 항―데이터의 높낮이를 보정해주는 역할을 한다.

설명

예를 들어 위의 미세먼지를 예로 든다면, 딱 저 위치 $t_{0}$ 에서만 500 정도를 더해주도록 $m_{t}$ 를 $$ m_{t} := \begin{cases} 500 & , t = t_{0} \\ 0 & , t \ne t_{0} \end{cases} $$ 와 같이 정의하면 된다. $m_{t}$ 는 $t = t_{0}$ 외의 시점에서는 $0$ 이므로 $Y_{t} = N_{t}$ 을 피팅하면 된다. 이러한 센스에서, 보통의 아리마 모형을 이용한 분석에 $m_{t}$ 가 추가된 것은 ‘개입 분석’이라고 부를만하다. 구체적으로 $m_{t}$ 를 어떻게 정하는지는 데이터마다, 분석마다 계속 달라지며 수식적인 표현 역시 그때그때 변한다.


  1. Cryer. (2008). Time Series Analysis: With Applications in R(2nd Edition): p250. ↩︎