logo

가중평균의 정의 📂수리통계학

가중평균의 정의

정의

데이터 $\mathbf{x} = \left\{ x_{1} , \cdots , x_{n} \right\}$ 와 벡터 $\mathbf{w} = \left( w_{1} , \cdots , w_{n} \right) \in \mathbb{R}^{n}$ 에 대해 다음을 가중평균weighted mean이라 한다. $$ {{ \sum_{k=1}^{n} w_{k} x_{k} } \over { \sum_{k=1}^{n} w_{k} }} = {{ w_{1} x_{1} + \cdots + w_{n} x_{n} } \over { w_{1} + \cdots + w_{n} }} $$ 한편 $\mathbf{w}$ 를 가중벡터 혹은 간단히 가중치라 부르기도 하고, 영어로는 그냥 웨이트weight라 한다.

설명

가중평균수리통계학 및 보편적인 수학의 분과에서 자주 언급되는 통계량으로써, 모든 가중치가 동일한 산술평균의 일반화로 볼 수 있다. $\mathbf{w} = \left( a , \cdots , a \right) \ne \mathbf{0}$ 이면 다음과 같이 널리 쓰이는 표본평균이 된다. $$ {{ a x_{1} + \cdots + a x_{n} } \over { a + \cdots + a }} = {{ x_{1} + \cdots + x_{n} } \over { n }} $$ $\mathbf{x}$ 가 다차원으로 확장되면 기하적으로 중복을 허용한 여러 점의 무게중심centroid로 볼 수 있으며, 물리학에서는 다음과 같이 각 입자의 질량을 가중치로 가지는 가중평균으로써 질량중심을 정의할 수 있다. $$ \mathbf{r}_{cm}=\frac{m_{1}\mathbf{r}_{1}+m_{2}\mathbf{r}_{2}+\cdots + m_{n}\mathbf{r}_{n}}{m_{1}+ m_{2}+ \cdots+ m_{n}}=\frac{\sum m_{i}\mathbf{r}_{i}}{m} $$ 홈그라운드라고 할 수 있는 통계학에서는 굳이 대표를 꼽기 어려울 정도로 많은 예시가 있으며, 너무 당연하고 익숙한 개념이라 별 다른 설명도 없이 갑자기 등장하곤 한다. 예를 들어 모평균이 다른 여러 모집단에서 얻은 표본의 합동분산 $s_{p}^{2}$ 은 다음과 같다. $$ s_{p}^{2} = {{ \left( n_{1} - 1 \right) s_{1}^{2} + \cdots + \left( n_{m} - 1 \right) s_{m}^{2} } \over { \left( n_{1} - 1 \right) + \cdots + \left( n_{m} - 1 \right) }} = {{ \sum_{i=1}^{m} \left( n_{i} - 1 \right) s_{i}^{2} } \over { \sum_{i=1}^{m} \left( n_{i} - 1 \right) }} $$

지수가중평균

시계열 데이터 $\left\{ x_{t} \right\}_{t=1}^{n}$에 대해서, 다음의 값을 $\left\{ x_{t} \right\}_{t=1}^{n}$의 지수 가중평균exponentially weighted average이라 한다. $\beta \in (0,1)$에 대해서,

$$ \begin{align*} \dfrac{\beta^{n-1}x_{1} + \beta^{n-2}x_{2} + \cdots + \beta^{0}x_{n}}{\beta^{n-1} + \beta^{n-2} + \cdots + \beta^{0}} &= (1 - \beta) \dfrac{\beta^{n-1}x_{1} + \beta^{n-2}x_{2} + \cdots + \beta^{0}x_{n}}{1 - \beta^{n}} \\ &= \dfrac{ (1 - \beta) \sum\limits_{t=1}^{n}\beta^{n-t}x_{t} }{1 - \beta^{n}} \end{align*} $$

첫번째 등호는 등비수열의 합 공식에 의해 성립한다. 이는 $x_{t}$들을 더할 때 과거시간의 데이터일수록 비중을 지수적으로 감소시켜 더하는 것이다. 다음과 같이 재귀적recursive으로 정의되기도 한다.

$$ \begin{align*} y_{0} &= 0 \\ y_{t} &= \beta y_{t-1} + (1-\beta) x_{t} = (1-\beta) \sum\limits_{j=1}^{t} \beta^{t-j} x_{j} \end{align*} $$

이 경우엔 가중합weighted sum이므로 $(1 - \beta^{t})$로 나눠주면 가중평균weighted average이 된다.

$$ \hat{y}_{t} = \dfrac{y_{t}}{1 - \beta^{t}} $$