원형 평균
도입1
$\theta \in [0, 2\pi)$를 단위원 $S^{1}$ 위의 점이라 하자. $\theta$는 주기적인 값을 갖기 때문에, 단순히 스칼라 값이라 두고 산술 평균으로 계산하면 올바른 값을 얻을 수 없다. 주기성을 고려하여 모듈로 $2\pi$를 취하면 될 것 같지만 계산해보면 그렇지 않다. 예를 들어 세 개의 각도 데이터 $350^{\circ}$, $355^{\circ}$, $10^{\circ}$가 주어졌고, 각도의 범위를 $[0^{\circ}, 360^{\circ})$라 하자. 이 세 값은 $0^{\circ}$ 근처에 모여있으므로, 직관적으로 평균값 역시 그 근처여야 할 것이고, $350^{\circ} + 10^{\circ} = 0^{\circ}$이니 $355^{\circ}$가 나와야한다고 생각할 수도 있겠다. 하지만 모듈로를 취하여 산술평균으로 계산하면 아래와 같은 결과를 얻는다.
$$ \bar{\theta} = \dfrac{350^{\circ} + 355^{\circ} + 10^{\circ} \pmod{360^{\circ}}}{3} = \dfrac{715^{\circ} \pmod{360^{\circ}}}{3} = \dfrac{355^{\circ}}{3} \approx 118^{\circ} $$
더 간단한 예로 $180^{\circ}$와 $190^{\circ}$의 평균을 계산했을 때 $185^{\circ}$를 얻어야 마땅하겠지만, 아래와 같이 $5^{\circ}$라는 직관과는 전혀 다른 값이 나온다.
$$ \bar{\theta} = \dfrac{180^{\circ} + 190^{\circ} \pmod{360^{\circ}}}{2} = \dfrac{370^{\circ}\pmod{360^{\circ}}}{2} = \dfrac{10^{\circ}}{2} = 5^{\circ} $$
또한 각도의 범위를 어떻게 정하느냐에 따라, 즉 브랜치를 어디로 두느냐에 따라 값이 달라진다는 문제점도 있다. 만약 각도의 범위를 $[0^{\circ}, 360^{\circ})$로 잡으면, $20^{\circ}$와 $190^{\circ}$의 산술평균은 $210^{\circ}/2 = 105^{\circ}$이다. 허나 브랜치를 $(-180^{\circ}, 180^{\circ}]$로 두면 산술평균은 $(20^{\circ} + 190^{\circ})/2 = (20^{\circ} - 170^{\circ})/2 = -75^{\circ}$로 값 자체의 일관성이 없게된다.
따라서 원형 데이터circular data의 평균은 데이터의 이러한 특성을 반영하여 정의해야한다. $n$개의 각도 데이터 $\theta_{1}, \dots, \theta_{n}$이 주어졌다고 하자. 이 각도들을 2차원 평면의 단위원 위의 점에 대응시키면 각각 $\theta_{i} \mapsto (\cos\theta_{i}, \sin\theta_{i})$와 같다. 이 이차원 벡터들의 산술 평균이 가리키는 방향을 원형 평균이라 한다.
정의
$n$개의 각도 $\theta_{1}, \dots, \theta_{n}$의 원형 평균circluar/angular mean을 아래와 같이 정의한다.
$$ \bar{\theta} = \begin{cases} \tan^{-1} \left( \dfrac{\frac{1}{n}\sum\limits_{i=1}^{n} \sin\theta_{i}}{\frac{1}{n}\sum\limits_{i=1}^{n} \cos\theta_{i}} \right) & ,\text{if } \sum\limits_{i=1}^{n} \cos\theta_{i} \ge 0\\[4em] \tan^{-1} \left( \dfrac{\frac{1}{n}\sum\limits_{i=1}^{n} \sin\theta_{i}}{\frac{1}{n}\sum\limits_{i=1}^{n} \cos\theta_{i}} \right) + \pi & ,\text{if } \sum\limits_{i=1}^{n} \cos\theta_{i} \lt 0 \end{cases} \tag{1} $$
아크탄젠트2로 표기하면 아래와 같다.
$$ \begin{align*} \bar{\theta} &= \operatorname{atan2} \left( \dfrac{1}{n}\sum_{i=1}^{n} \sin\theta_{i}, \dfrac{1}{n}\sum_{i=1}^{n} \cos\theta_{i} \right) \\ &= \operatorname{atan2} \left( \sum_{i=1}^{n} \sin\theta_{i}, \sum_{i=1}^{n} \cos\theta_{i} \right) \end{align*} $$
설명
$(1)$에서 $\sum \cos\theta_{i}$에 따라 값이 달라지는 이유는, 원래 $\tan$의 치역이 $[-\pi/2, \pi/2]$로 제한되기 때문이다. 2사분면과 3사분면에서의 값을 제대로 나타내기 위해 아래의 경우에서는 $\pi$를 더해준다.
아래는 $0^{\circ}$ 근처의 데이터와 그 원형평균(좌측)과 $90^{\circ}$ 근처의 데이터와 그 원형평균(우측)을 그린 그림이다.

Kanti V. Mardia and Peter E. Jupp. Directional Statistics, p13-15. ↩︎

저희들의 저서 「줄리아 프로그래밍」이 2024 세종도서 학술부문에 선정되었습니다!

