時系列分析における安定性
定義 1
時系列データの平均と分散が時間に関して一定の時、定常性stationarityを持つと言われる。
説明
普通の正常ではなく、定常性定常だ。
データが定常性を持つというのは、平均と分散が安定しているため、分析しやすいという意味だ。データが定常性を持たない場合、分析が難しくなるので、定常性を持たせるための前処理を行う。通常、平均が一定でなければ差分を取り、分散が一定でなければ変換を行う。
次の四つのグラフを見よう。
- 扱いづらいデータ: 複雑な上下を繰り返す形を見せるだけでなく、時間が経つにつれて値が大きくなる傾向があり、その度合いも強くなっている。後の動向を予想するのは難しくないが、数式できれいに表すのは非常に難しい。
- 一定の平均: 固定された0を中心に徐々に広がる形なので、難しくはないが、その範囲が広がることが問題だ。
- 一定の分散: 各々のパターンは一定の形を持っているが、時間によって値自体が増加する傾向を説明できなければならない。
- 定常的なデータ: 平均と分散が一定なので、繰り返される上下だけをうまく説明すればいい。
このようにデータが定常性を持つというのは非常に良いことであり、実際には時系列分析を使用するための必須条件と言える。
その一方で、すべての時点$t_{1} , t_{2} , \cdots , t_{n}$およびすべての時差$k$において$Y_{t_{1}} , Y_{t_{2}} , \cdots , Y_{t_{n}}$と$Y_{t_{1} - k} , Y_{t_{2} - k} , \cdots , Y_{t_{n} - k}$が同じ結合分布を持つならば、確率過程$\left\{ Y_{t} \right\}$を厳密に定常的strictly Stationaryであると言う。しかし、これは非常に理想的な条件であるため、あまり言及されない。
コード
win.graph(); par(mfrow=c(2,2))
plot(AirPassengers,main='다루기 어려운 데이터')
plot(diff(AirPassengers),main='일정한 평균')
plot(log(AirPassengers),main='일정한 분산')
plot(diff(log(AirPassengers)),main='정상적 데이터')
参照
Cryer. (2008). Time Series Analysis: With Applications in R(2版): p16. ↩︎