하르케-베라 테스트
가설검정
양적 데이터 $\left\{ x_{i} \right\}_{i = 1}^{n}$ 가 주어져 있다고 하자.
- $H_{0}$: 데이터 $\left\{ x_{i} \right\}_{i = 1}^{n}$ 는 정규분포를 따른다.
- $H_{1}$: 데이터 $\left\{ x_{i} \right\}_{i = 1}^{n}$ 는 정규분포를 따르지 않는다.
설명
하르케-베라 테스트는 정규성을 검정하기 위해 사용하는 가설검정으로써, 보통은 정규성이 있음을 보이기 위해서 사용한다. 귀무가설이 채택되는 것이 ‘분석자의 의도’와 일치하는 드문 경우기 때문에 가설을 정확하게 알고 있어야한다.
샤피로-윌크 테스트와 다른 점은 왜도와 첨도를 이용해서 검정을 한다는 것밖에 없다. 정규분포는 모왜도와 모첨도가 모두 $0$ 이며, 표본왜도 $g_{1}$ 와 표본첨도 $g_{2}$ 에 대해 검정통계량 $JB$ 는 다음과 같이 구해지고 자유도 $2$ 의 카이제곱분포를 따른다.
$$
JB := {{n g_{1}^2} \over {6}} + {{n g_{2}^2} \over {24}} \sim \chi^{2} (2)
$$
이러나 저러나 정규성 검정이기 때문에 뭘 쓰든 딱히 상관은 없으나, 하르케-베라 테스트는 이상치에 민감한 왜도를 쓰는만큼 샤피로-윌크 테스트와 비교했을 땐 이상치를 제거했을 때 정규분포임이 드러나는 경우가 더 많다. 꼭 그 이유에서라고 장담은 할 수 없으나, 보통 회귀 분석보다는 시계열 분석에서 정규성을 입증하기 위해 쓰인다. 실제로 R에서도 tseries
패키지의 jarque.bera.test()
함수로 하르케-베라 테스트를 한다.
코드
실습
다음의 두가지 랜덤샘플을 만들어내서 실제로 하르케-베라 테스트를 해보자.
N
은 정규분포에서 나온 데이터고, geo
는 기하분포에서 나온 데이터다.
테스트 결과는 정확하게 예상대로 나타난다.
전체코드
아래는 R 예제코드다.
library(tseries)
set.seed(150421)
N<-rnorm(100)
win.graph(4,4); hist(N)
jarque.bera.test(N)
geo<-rgeom(100,0.5)
win.graph(4,4); hist(geo)
jarque.bera.test(geo)