時系列分析における異質スケダスティシティとボラティリティクラスタリング
定義 1
与えられた時系列データ$\left\{ p_{t} \right\}$。
- $\left\{ p_{t} \right\}$の分散が$t$に依存しているとき、$\left\{ p_{t} \right\}$は異分散性heteroscedasticityを持つと言われる。
- 異分散性を持つ$\left\{ p_{t} \right\}$の分散が大きくなったり小さくなったりを繰り返す現象をボラティリティクラスタリングvolatility Clusteringと言う。
- 次のように定義された$r_{t}$を$t$での**(ログ)リターン**returnと言う。 $$ r_{t} := \nabla \log p_{t} = \log {{ p_{t} } \over { p_{t-1} }} $$
説明
ヘテロスケダスティシティは[heteroscedasticity]と読み、ヴォラティリティクラスタリングは[volatility clustering]と読む。これら2つの言葉を韓国語で説明した文書は少ないが、これを勉強した人々が言葉を簡単にする必要性を感じないからだろう。異分散性やボラティリティクラスタリングを書いて読んでみると不自然ではないが、話すときはその長い言葉をそのまま発音することが多い。
異分散性
ARIMAモデルは、ほとんどの統計分析と同じように、データの平均に関心がある。実際の値がどのように動くかが重要なのである。しかし、値自体だけでなく、その変動自体も時間の流れと共に変わるという仮定をすることもできる。そのために異分散性という言葉が作られたのである。時系列データの分散が時間に関係なく常に一定であれば、この言葉は必要ない。
時系列の分散に関心を持つのは、通常経済、金融分野だ。データの変動は価値の変化を示し、ある資産のリスクを論じるとき、すぐに使われることができる。リスクは利益の別の姿であるため、関心の対象となる。時系列データを表すときは通常$\left\{ y_{t} \right\}$と書くが、異分散性に注目するときは$\left\{ p_{t} \right\}$と書くのもそのためである。$p_{t}$の$p$はPriceから来たものだ。
ボラティリティクラスタリング
分散が大きくなったり小さくなったりを繰り返すことをボラティリティクラスタリングと呼び、この用語がある理由は単純だ。市場でボラティリティがずっと大きくなったり小さくなったりすることはなく、もしそのような場合があっても、統計分析をする必要があるほど複雑なデータではないからだ。もっと上品に表現することもできるが、まずはこの説明で進もう。
リターン
リターンは、このような異分散性を見つけ、分析するのに役立つ表現だ。ログを取ることで、$p_{t}$が$p_{t-1}$より大きい(価格が上がれば)場合は正の数となり、小さければ(価格が下がれば)負の数となり、パーセンテージで見やすくするために100を掛けることもある。単に値の差が大きいか小さいかではなく、前のデータとの比率を使うので、データの固有の特徴に大きく影響されないのも良い点だ。
実習
上のグラフは、組み込みデータEuStockMarkets
からDAX
だけを抽出して描いたもので、1991年から1999年までのドイツDAX
指数を示している。
リターンは上のように描かれており、ハイライトが入っている画像を見て、ボラティリティが高いと低いが交互に現れるように見えたら、ボラティリティクラスタリングが何か理解したと見なしても良い。
そう見えなくても良い。感覚に頼った主張を堅固にするのが統計学の役割であり、まだ何の統計技術も使われていないからだ。
コード
returnize <- function(data) {return(diff(log(data)))}
win.graph(6,4)
plot(EuStockMarkets[,1],main="EuStockMarkets",ylab='DAX')
DAX <- ts(EuStockMarkets[,1],start=1)
r.DAX <- returnize(DAX)
win.graph(6,4)
plot(r.DAX,type='h',main='DAX의 리턴')
Cryer. (2008). Time Series Analysis: With Applications in R(2nd Edition): p277~279. ↩︎