介入分析
ビルドアップ
上のグラフは、実際に2015年のソウルの微細粉塵濃度を示した時系列データだ。誰が見ても最初に目立つのは、50番目くらい、つまり2月の終わりに微細粉塵濃度が500を超えた日があったことだろう。
データを扱うのに慣れている人なら、最初に誤って観測されたのではないかと疑うかもしれないが、驚くべきことに、実際に起こったことだった。この日について研究した論文もあり(その時はまだ「微細粉塵」という言葉をあまり使わなかったので、タイトルに「黄砂」という表現を使った。)まだこの日について言及した文書を簡単に見つけることができる。
問題は、大気科学の専門家の観点ではなく、統計分析者の観点から、これをどう扱うかということだ。時系列データは通常のデータとは異なり、順序があるため、急いで外れ値として除外してしまうと、まるで存在しなかったことにならず、欠損値が生じてしまう。しかし、この巨大な外れ値を入れてARIMAモデルでフィッティングしようとすると、分析全体に与える悪影響がかなり大きくなるだろう。
定義 1
この問題を解決するための一つの方法が、介入分析だ。介入分析は次のような数式で表される。
ここで、はARIMA過程であり、は平均を調整する項―データの高低を修正する働きをする。
説明
例えば、微細粉塵を例にすると、を のように定義して、ちょうどその場所でだけ500を足すようにするといい。は以外の時点ではなので、でフィッティングすればいい。この意味で、通常のARIMAモデルを使った分析にが加わるのは、「介入分析」と呼ぶにふさわしい。具体的にをどのように定義するかは、データごと、分析ごとに変わり続け、数式的な表現もその都度変わる。
Cryer. (2008). Time Series Analysis: With Applications in R(2nd Edition): p250. ↩︎