logo

円平均 📂確率分布論

円平均

導入1

$\theta \in [0, 2\pi)$を単位円 $S^{1}$ 上の点とする。$\theta$は周期的な値を持つため、単にスカラー値と見なして算術平均で計算すると正しい値を得られない。周期性を考慮してモジュロ $2\pi$を取ればよさそうに思えるが、計算してみるとそうではない。例えば3つの角度データ $350^{\circ}$、$355^{\circ}$、$10^{\circ}$ が与えられ、角度の範囲を $[0^{\circ}, 360^{\circ})$ とする。この3つの値は $0^{\circ}$ の近傍に集まっているので、直観的には平均値もその近傍にあるはずで、$350^{\circ} + 10^{\circ} = 0^{\circ}$だから $355^{\circ}$ が出るはずだと考えるかもしれない。しかしモジュロを取って算術平均で計算すると以下のような結果を得る。

$$ \bar{\theta} = \dfrac{350^{\circ} + 355^{\circ} + 10^{\circ} \pmod{360^{\circ}}}{3} = \dfrac{715^{\circ} \pmod{360^{\circ}}}{3} = \dfrac{355^{\circ}}{3} \approx 118^{\circ} $$

より簡単な例として $180^{\circ}$ と $190^{\circ}$ の平均を計算したとき $185^{\circ}$ を得るのが妥当だが、下のように $5^{\circ}$ という直観とはまったく異なる値が出る。

$$ \bar{\theta} = \dfrac{180^{\circ} + 190^{\circ} \pmod{360^{\circ}}}{2} = \dfrac{370^{\circ}\pmod{360^{\circ}}}{2} = \dfrac{10^{\circ}}{2} = 5^{\circ} $$

また角度の範囲をどう定めるか、つまりブランチをどこに置くかによって値が変わるという問題もある。もし角度の範囲を $[0^{\circ}, 360^{\circ})$ にとると、$20^{\circ}$ と $190^{\circ}$ の算術平均は $210^{\circ}/2 = 105^{\circ}$ になる。しかしブランチを $(-180^{\circ}, 180^{\circ}]$ に置くと算術平均は $(20^{\circ} + 190^{\circ})/2 = (20^{\circ} - 170^{\circ})/2 = -75^{\circ}$ になり、値そのものの一貫性が失われる。

したがって円形データcircular dataの平均はデータのこのような特性を反映して定義しなければならない。$n$個の角度データ $\theta_{1}, \dots, \theta_{n}$ が与えられたとする。これらの角度を2次元平面単位円上の点に対応させるとそれぞれ $\theta_{i} \mapsto (\cos\theta_{i}, \sin\theta_{i})$ となる。これらの2次元ベクトルの算術平均が指す方向を環状平均という。

定義

$n$個の角度 $\theta_{1}, \dots, \theta_{n}$ の環状平均circluar/angular meanを以下のように定義する。

$$ \bar{\theta} = \begin{cases} \tan^{-1} \left( \dfrac{\frac{1}{n}\sum\limits_{i=1}^{n} \sin\theta_{i}}{\frac{1}{n}\sum\limits_{i=1}^{n} \cos\theta_{i}} \right) & ,\text{if } \sum\limits_{i=1}^{n} \cos\theta_{i} \ge 0\\[4em] \tan^{-1} \left( \dfrac{\frac{1}{n}\sum\limits_{i=1}^{n} \sin\theta_{i}}{\frac{1}{n}\sum\limits_{i=1}^{n} \cos\theta_{i}} \right) + \pi & ,\text{if } \sum\limits_{i=1}^{n} \cos\theta_{i} \lt 0 \end{cases} \tag{1} $$

アークタンジェント2で表すと次のようになる。

$$ \begin{align*} \bar{\theta} &= \operatorname{atan2} \left( \dfrac{1}{n}\sum_{i=1}^{n} \sin\theta_{i}, \dfrac{1}{n}\sum_{i=1}^{n} \cos\theta_{i} \right) \\ &= \operatorname{atan2} \left( \sum_{i=1}^{n} \sin\theta_{i}, \sum_{i=1}^{n} \cos\theta_{i} \right) \end{align*} $$

説明

$(1)$において $\sum \cos\theta_{i}$ によって値が変わる理由は、元々$\tan$の値域が $[-\pi/2, \pi/2]$ に制限されているためである。第2象限と第3象限での値を正しく表現するために、以下の場合には $\pi$ を加える。

下は $0^{\circ}$ の近傍のデータとその環状平均(左)および $90^{\circ}$ の近傍のデータとその環状平均(右)を描いた図である。


  1. Kanti V. Mardia and Peter E. Jupp. Directional Statistics, p13-15. ↩︎