介入分析
ビルドアップ
上のグラフは、実際に2015年のソウルの微細粉塵濃度を示した時系列データだ。誰が見ても最初に目立つのは、50番目くらい、つまり2月の終わりに微細粉塵濃度が500を超えた日があったことだろう。
データを扱うのに慣れている人なら、最初に誤って観測されたのではないかと疑うかもしれないが、驚くべきことに、実際に起こったことだった。この日について研究した論文もあり(その時はまだ「微細粉塵」という言葉をあまり使わなかったので、タイトルに「黄砂」という表現を使った。)まだこの日について言及した文書を簡単に見つけることができる。
問題は、大気科学の専門家の観点ではなく、統計分析者の観点から、これをどう扱うかということだ。時系列データは通常のデータとは異なり、順序があるため、急いで外れ値として除外してしまうと、まるで存在しなかったことにならず、欠損値が生じてしまう。しかし、この巨大な外れ値を入れてARIMAモデルでフィッティングしようとすると、分析全体に与える悪影響がかなり大きくなるだろう。
定義 1
この問題を解決するための一つの方法が、介入分析だ。介入分析は次のような数式で表される。
$$ Y_{t} = m_{t} + N_{t} $$ ここで、$N_{t}$はARIMA過程であり、$m_{t}$は平均を調整する項―データの高低を修正する働きをする。
説明
例えば、微細粉塵を例にすると、$m_{t}$を $$ m_{t} := \begin{cases} 500 & , t = t_{0} \\ 0 & , t \ne t_{0} \end{cases} $$ のように定義して、ちょうどその場所$t_{0}$でだけ500を足すようにするといい。$m_{t}$は$t = t_{0}$以外の時点では$0$なので、$Y_{t} = N_{t}$でフィッティングすればいい。この意味で、通常のARIMAモデルを使った分析に$m_{t}$が加わるのは、「介入分析」と呼ぶにふさわしい。具体的に$m_{t}$をどのように定義するかは、データごと、分析ごとに変わり続け、数式的な表現もその都度変わる。
Cryer. (2008). Time Series Analysis: With Applications in R(2nd Edition): p250. ↩︎