가중평균의 정의
📂수리통계학가중평균의 정의
정의
데이터 x={x1,⋯,xn} 와 벡터 w=(w1,⋯,wn)∈Rn 에 대해 다음을 가중평균weighted mean이라 한다.
∑k=1nwk∑k=1nwkxk=w1+⋯+wnw1x1+⋯+wnxn
한편 w 를 가중벡터 혹은 간단히 가중치라 부르기도 하고, 영어로는 그냥 웨이트weight라 한다.
설명
가중평균은 수리통계학 및 보편적인 수학의 분과에서 자주 언급되는 통계량으로써, 모든 가중치가 동일한 산술평균의 일반화로 볼 수 있다. w=(a,⋯,a)=0 이면 다음과 같이 널리 쓰이는 표본평균이 된다.
a+⋯+aax1+⋯+axn=nx1+⋯+xn
x 가 다차원으로 확장되면 기하적으로 중복을 허용한 여러 점의 무게중심centroid로 볼 수 있으며, 물리학에서는 다음과 같이 각 입자의 질량을 가중치로 가지는 가중평균으로써 질량중심을 정의할 수 있다.
rcm=m1+m2+⋯+mnm1r1+m2r2+⋯+mnrn=m∑miri
홈그라운드라고 할 수 있는 통계학에서는 굳이 대표를 꼽기 어려울 정도로 많은 예시가 있으며, 너무 당연하고 익숙한 개념이라 별 다른 설명도 없이 갑자기 등장하곤 한다. 예를 들어 모평균이 다른 여러 모집단에서 얻은 표본의 합동분산 sp2 은 다음과 같다.
sp2=(n1−1)+⋯+(nm−1)(n1−1)s12+⋯+(nm−1)sm2=∑i=1m(ni−1)∑i=1m(ni−1)si2
지수가중평균
시계열 데이터 {xt}t=1n에 대해서, 다음의 값을 {xt}t=1n의 지수 가중평균exponentially weighted average이라 한다. β∈(0,1)에 대해서,
βn−1+βn−2+⋯+β0βn−1x1+βn−2x2+⋯+β0xn=(1−β)1−βnβn−1x1+βn−2x2+⋯+β0xn=1−βn(1−β)t=1∑nβn−txt
첫번째 등호는 등비수열의 합 공식에 의해 성립한다. 이는 xt들을 더할 때 과거시간의 데이터일수록 비중을 지수적으로 감소시켜 더하는 것이다. 다음과 같이 재귀적recursive으로 정의되기도 한다.
y0yt=0=βyt−1+(1−β)xt=(1−β)j=1∑tβt−jxj
이 경우엔 가중합weighted sum이므로 (1−βt)로 나눠주면 가중평균weighted average이 된다.
y^t=1−βtyt