수리통계학에서의 왜도
정의
- 확률변수 $X$ 의 평균이 $\mu$, 분산이 $\sigma^2$ 라고 할 때 다음과 같이 정의된 $\gamma_{1}$ 를 $X$ 의 왜도skewness라고 한다. $$ \gamma_{1} := {{ E \left( X - \mu \right)^3 } \over { \sigma^3 }} $$
- 데이터 $\left\{ X_{i} \right\}_{i}^{n}$ 의 표본평균이 $\overline{X}$, 표본분산이 $\widehat{\sigma}^2$ 이라고 할 때 표본왜도 $g_{1}$ 은 다음과 같이 구해진다. $$ g_{1} := \sum_{i=1}^{n} {{ \left( X - \overline{X} \right)^3 } \over { n \widehat{\sigma}^3 }} $$
설명
왜도는 3차 적률로 구해지며, 확률변수의 분포함수가 어떻게 치우쳐져 있는지에 대한 척도다. 양수면 오른쪽에 큰 값이 많은 것이고, 음수면 왼쪽에 큰 값이 많은 것이다.
정규분포는 모왜도가 $0$ 이고, 실제로 $1000$ 개의 샘플을 뽑아 확인해봐도 $0$ 에 가깝게 구해지는 것을 확인할 수 있다. 계산 자체는 음수가 나왔는데, 실제로 히스토그램을 봐도 왼쪽에 극단적인 값들이 포진해있다.
위의 히스토그램은 푸아송분포 $\text{Pois}(5)$ 에서 $1000$ 개의 샘플을 뽑아서 그린 것이다. 실제로 양수로 계산된 것은 그만큼 극단적인 값들이 오른쪽에 많았기 때문이다.
set.seed(150421)
win.graph(6,4)
x<-rnorm(1000)
hist(x,main=paste0("N(0,1)의 왜도 : ",round(skewness(x),4)))
win.graph(6,4)
y<-rpois(1000,lambda=5)
hist(y,main=paste0("Pois(5)의 왜도 : ",round(skewness(y),4)))