logo

수리통계학에서의 왜도 📂수리통계학

수리통계학에서의 왜도

정의

  1. 확률변수 XX 의 평균이 μ\mu, 분산이 σ2\sigma^2 라고 할 때 다음과 같이 정의된 γ1\gamma_{1}XX왜도skewness라고 한다. γ1:=E(Xμ)3σ3 \gamma_{1} := {{ E \left( X - \mu \right)^3 } \over { \sigma^3 }}
  2. 데이터 {Xi}in\left\{ X_{i} \right\}_{i}^{n} 의 표본평균이 X\overline{X}, 표본분산이 σ^2\widehat{\sigma}^2 이라고 할 때 표본왜도 g1g_{1} 은 다음과 같이 구해진다. g1:=i=1n(XX)3nσ^3 g_{1} := \sum_{i=1}^{n} {{ \left( X - \overline{X} \right)^3 } \over { n \widehat{\sigma}^3 }}

설명

왜도는 3차 적률로 구해지며, 확률변수의 분포함수가 어떻게 치우쳐져 있는지에 대한 척도다. 양수면 오른쪽에 큰 값이 많은 것이고, 음수면 왼쪽에 큰 값이 많은 것이다.

N.png

정규분포는 모왜도가 00 이고, 실제로 10001000 개의 샘플을 뽑아 확인해봐도 00 에 가깝게 구해지는 것을 확인할 수 있다. 계산 자체는 음수가 나왔는데, 실제로 히스토그램을 봐도 왼쪽에 극단적인 값들이 포진해있다.

Pois.png

위의 히스토그램은 푸아송분포 Pois(5)\text{Pois}(5) 에서 10001000 개의 샘플을 뽑아서 그린 것이다. 실제로 양수로 계산된 것은 그만큼 극단적인 값들이 오른쪽에 많았기 때문이다.

set.seed(150421)
win.graph(6,4)
x<-rnorm(1000)
hist(x,main=paste0("N(0,1)의 왜도 : ",round(skewness(x),4)))
win.graph(6,4)
y<-rpois(1000,lambda=5)
hist(y,main=paste0("Pois(5)의 왜도 : ",round(skewness(y),4)))