logo

수리통계학에서의 첨도 📂수리통계학

수리통계학에서의 첨도

첨도

  1. 확률변수 XX 의 평균이 μ\mu, 분산이 σ2\sigma^2 라고 할 때 다음과 같이 정의된 γ2\gamma_{2}XX첨도kurtosis라고 한다. γ2:=E(Xμ)4σ4 \gamma_{2} := {{ E \left( X - \mu \right)^4 } \over { \sigma^4 }}
  2. 데이터 {Xi}in\left\{ X_{i} \right\}_{i}^{n} 의 표본평균이 X\overline{X}, 표본분산이 σ^2\widehat{\sigma}^2 이라고 할 때 표본첨도 g2g_{2} 는 다음과 같이 구해진다. g2:=i=1n(XX)4nσ^4 g_{2} := \sum_{i=1}^{n} {{ \left( X - \overline{X} \right)^4 } \over { n \widehat{\sigma}^4 }}

정규분포 기준

정규분포모수에 관계없이 첨도가 33 인데, 이를 기준으로 삼아 바이어스bias는 있지만 (γ23)\left( \gamma_{2} - 3 \right)(g23)\left( g_{2} - 3 \right) 를 사용하기도 한다. 첨도를 이렇게 정의하면 양수와 음수로 확률분포 혹은 데이터가 정규분포보다 더 두꺼운 꼬리를 가지는지 얇은 꼬리를 가지는지 직관적으로 판단할 수 있다.

설명

첨도는 4차 적률로 구해지며, 확률변수의 분포함수가 얼마나 뾰족하게 생겼는지에 대한 척도다. 정규분포 기준으로 양수면 뭉툭하게 생긴 것이고, 음수면 뾰족하게 생긴 것이다.

N.png

위의 스크린샷은 정규분포 N(0,1)N(0,1) 의 확률밀도함수를 그리고, 10001000 개의 샘플을 뽑아 계산한 것을 나타낸다. 정규분포의 모첨도는 00 이고 실제로도 00 에 가깝게 계산되었다.

cauchy.png

위의 스크린샷은 코시분포 C(0,1)C(0,1) 의 확률밀도함수를 그리고, 10001000 개의 샘플을 뽑아 계산한 것을 나타낸다. 코시분포는 모평균이 존재하지 않으므로 모첨도도 존재하지 않는데, 표본첨도는 무려 992992 에 가깝게 계산되었다. 정규분포의 확률밀도함수와 비교하면 양쪽꼬리가 모두 두꺼우며, 위의 설명과 맞아떨어짐을 확인할 수 있다.

첨도는 꼬리에 관한 척도다

컬토시스kurtosis의 어원은 그리스어의 κυρτός로, 휜curved이나 아치형arching이라는 의미에서 유래되었으며1 첨도라는 번역 역시 피크의 뾰족함을 가리키는 것처럼 보이지만 이후의 연구로 보나 직관으로 보나 실제 그 값은 ‘분포의 꼬리가 얼마나 두꺼운지’에 더 가깝다.

코드

설명에 쓰인 그림을 만들 수 있는 R 코드다.

set.seed(150421)
win.graph(6,4)
x<-rnorm(1000)
plot(dnorm,xlim=c(-3,3),ylim=c(0,0.4),
     main=paste0("N(0,1)의 첨도 : ",round(kurtosis(x),4)))
abline(h=0)
win.graph(6,4)
y<-rcauchy(1000)
plot(dcauchy,xlim=c(-3,3),ylim=c(0,0.4),
     main=paste0("C(0,1)의 첨도 : ",round(kurtosis(y),4)))
abline(h=0)