logo

介入分析 📂統計的分析

介入分析

ビルドアップ

1.png

上のグラフは、実際に2015年のソウルの微細粉塵濃度を示した時系列データだ。誰が見ても最初に目立つのは、50番目くらい、つまり2月の終わりに微細粉塵濃度が500を超えた日があったことだろう。

20190807\_163906.png

データを扱うのに慣れている人なら、最初に誤って観測されたのではないかと疑うかもしれないが、驚くべきことに、実際に起こったことだった。この日について研究した論文もあり(その時はまだ「微細粉塵」という言葉をあまり使わなかったので、タイトルに「黄砂」という表現を使った。)まだこの日について言及した文書を簡単に見つけることができる。

問題は、大気科学の専門家の観点ではなく、統計分析者の観点から、これをどう扱うかということだ。時系列データは通常のデータとは異なり、順序があるため、急いで外れ値として除外してしまうと、まるで存在しなかったことにならず、欠損値が生じてしまう。しかし、この巨大な外れ値を入れてARIMAモデルでフィッティングしようとすると、分析全体に与える悪影響がかなり大きくなるだろう。

定義 1

この問題を解決するための一つの方法が、介入分析だ。介入分析は次のような数式で表される。

Yt=mt+Nt Y_{t} = m_{t} + N_{t} ここで、NtN_{t}ARIMA過程であり、mtm_{t}は平均を調整する項―データの高低を修正する働きをする。

説明

例えば、微細粉塵を例にすると、mtm_{t}mt:={500,t=t00,tt0 m_{t} := \begin{cases} 500 & , t = t_{0} \\ 0 & , t \ne t_{0} \end{cases} のように定義して、ちょうどその場所t0t_{0}でだけ500を足すようにするといい。mtm_{t}t=t0t = t_{0}以外の時点では00なので、Yt=NtY_{t} = N_{t}でフィッティングすればいい。この意味で、通常のARIMAモデルを使った分析にmtm_{t}が加わるのは、「介入分析」と呼ぶにふさわしい。具体的にmtm_{t}をどのように定義するかは、データごと、分析ごとに変わり続け、数式的な表現もその都度変わる。


  1. Cryer. (2008). Time Series Analysis: With Applications in R(2nd Edition): p250. ↩︎