수리통계학에서의 첨도 📂수리통계학

수리통계학에서의 첨도

첨도

확률변수 $X$ 의 평균이 $\mu$, 분산이 $\sigma^2$ 라고 할 때 다음과 같이 정의된 $\gamma_{2}$ 를 $X$ 의 첨도^kurtosis라고 한다. $$ \gamma_{2} := {{ E \left( X - \mu \right)^4 } \over { \sigma^4 }} $$
데이터 $\left\{ X_{i} \right\}_{i}^{n}$ 의 표본평균이 $\overline{X}$, 표본분산이 $\widehat{\sigma}^2$ 이라고 할 때 표본첨도 $g_{2}$ 는 다음과 같이 구해진다. $$ g_{2} := \sum_{i=1}^{n} {{ \left( X - \overline{X} \right)^4 } \over { n \widehat{\sigma}^4 }} $$

정규분포 기준

정규분포는 모수에 관계없이 첨도가 $3$ 인데, 이를 기준으로 삼아 바이어스^bias는 있지만 $\left( \gamma_{2} - 3 \right)$ 과 $\left( g_{2} - 3 \right)$ 를 사용하기도 한다. 첨도를 이렇게 정의하면 양수와 음수로 확률분포 혹은 데이터가 정규분포보다 더 두꺼운 꼬리를 가지는지 얇은 꼬리를 가지는지 직관적으로 판단할 수 있다.

설명

첨도는 4차 적률로 구해지며, 확률변수의 분포함수가 얼마나 뾰족하게 생겼는지에 대한 척도다. 정규분포 기준으로 양수면 뭉툭하게 생긴 것이고, 음수면 뾰족하게 생긴 것이다.

위의 스크린샷은 정규분포 $N(0,1)$ 의 확률밀도함수를 그리고, $1000$ 개의 샘플을 뽑아 계산한 것을 나타낸다. 정규분포의 모첨도는 $0$ 이고 실제로도 $0$ 에 가깝게 계산되었다.

위의 스크린샷은 코시분포 $C(0,1)$ 의 확률밀도함수를 그리고, $1000$ 개의 샘플을 뽑아 계산한 것을 나타낸다. 코시분포는 모평균이 존재하지 않으므로 모첨도도 존재하지 않는데, 표본첨도는 무려 $992$ 에 가깝게 계산되었다. 정규분포의 확률밀도함수와 비교하면 양쪽꼬리가 모두 두꺼우며, 위의 설명과 맞아떨어짐을 확인할 수 있다.

첨도는 꼬리에 관한 척도다

컬토시스^kurtosis의 어원은 그리스어의 κυρτός로, 휜^curved이나 아치형^arching이라는 의미에서 유래되었으며¹ 첨도라는 번역 역시 피크의 뾰족함을 가리키는 것처럼 보이지만 이후의 연구로 보나 직관으로 보나 실제 그 값은 ‘분포의 꼬리가 얼마나 두꺼운지’에 더 가깝다.

코드

설명에 쓰인 그림을 만들 수 있는 R 코드다.

set.seed(150421)
win.graph(6,4)
x<-rnorm(1000)
plot(dnorm,xlim=c(-3,3),ylim=c(0,0.4),
     main=paste0("N(0,1)의 첨도 : ",round(kurtosis(x),4)))
abline(h=0)
win.graph(6,4)
y<-rcauchy(1000)
plot(dcauchy,xlim=c(-3,3),ylim=c(0,0.4),
     main=paste0("C(0,1)의 첨도 : ",round(kurtosis(y),4)))
abline(h=0)

https://en.wikipedia.org/wiki/Kurtosis ↩︎