logo

時系列回帰分析における偽の相関関係 📂統計的分析

時系列回帰分析における偽の相関関係

実践 1

以下の例を見てみよう。

20190806\_121420.png

上に示されたように、2つの時系列データが与えられたとしよう。一見、時間が経つにつれて徐々に増加するトレンドを含め、季節性を含んだ波動パターンが非常に似ているため、これら2つの時系列は強い相関関係を持っているように見える。

20190806\_121428.png

実際にCCFを計算してみると、予想通り高い相関関係があることがわかる。

逆転

6.png

しかし、これらのデータは実際には1994年から2005年までの牛乳生産量と電力生産量のログだ。論理的に考えると、夏に牛乳がよく出るから、夏に電力を多く使うからといって、牛乳と電力生産量が関連しているとは考えにくい。もちろん、本当に相関関係があるかもしれないが、このような場合、世界の多くの現象が牛乳だけで説明できることになるだろう。

解決法

このように怪しい関係を適切に理解する方法として、事前白化を使用できる。事前白化とは、簡単に言うと、数式的、またはデータの形状のせいでどうしても生じる相関関係を取り除く方法である。この方法を使用してデータを白色ノイズに変換し、そのCCFを計算した結果は次のようになる。

7.png

これは、元のデータ間のCCFが単に数式を通じて計算されただけで、実際には相関関係を持たないことを意味する。このように、数値的には説得力があるように見えても、仮説検定を通過する相関関係を偽の相関関係と呼ぶ。


  1. Cryer. (2008). Time Series Analysis: With Applications in R(2nd Edition): p264~267. ↩︎