logo

하르케-베라 테스트 📂통계적검정

하르케-베라 테스트

가설검정

양적 데이터 $\left\{ x_{i} \right\}_{i = 1}^{n}$ 가 주어져 있다고 하자.

  • $H_{0}$: 데이터 $\left\{ x_{i} \right\}_{i = 1}^{n}$ 는 정규분포를 따른다.
  • $H_{1}$: 데이터 $\left\{ x_{i} \right\}_{i = 1}^{n}$ 는 정규분포를 따르지 않는다.

설명

하르케-베라 테스트는 정규성을 검정하기 위해 사용하는 가설검정으로써, 보통은 정규성이 있음을 보이기 위해서 사용한다. 귀무가설이 채택되는 것이 ‘분석자의 의도’와 일치하는 드문 경우기 때문에 가설을 정확하게 알고 있어야한다.

샤피로-윌크 테스트와 다른 점은 왜도첨도를 이용해서 검정을 한다는 것밖에 없다. 정규분포는 모왜도와 모첨도가 모두 $0$ 이며, 표본왜도 $g_{1}$ 와 표본첨도 $g_{2}$ 에 대해 검정통계량 $JB$ 는 다음과 같이 구해지고 자유도 $2$ 의 카이제곱분포를 따른다. $$ JB := {{n g_{1}^2} \over {6}} + {{n g_{2}^2} \over {24}} \sim \chi^{2} (2) $$ 이러나 저러나 정규성 검정이기 때문에 뭘 쓰든 딱히 상관은 없으나, 하르케-베라 테스트는 이상치에 민감한 왜도를 쓰는만큼 샤피로-윌크 테스트와 비교했을 땐 이상치를 제거했을 때 정규분포임이 드러나는 경우가 더 많다. 꼭 그 이유에서라고 장담은 할 수 없으나, 보통 회귀 분석보다는 시계열 분석에서 정규성을 입증하기 위해 쓰인다. 실제로 R에서도 tseries 패키지의 jarque.bera.test() 함수로 하르케-베라 테스트를 한다.

코드

실습

다음의 두가지 랜덤샘플을 만들어내서 실제로 하르케-베라 테스트를 해보자.

992C753E5C7BD7AB1D.png 991D063E5C7BD7AB1E.png

N은 정규분포에서 나온 데이터고, geo기하분포에서 나온 데이터다.

20190310\_121333.png

테스트 결과는 정확하게 예상대로 나타난다.

전체코드

아래는 R 예제코드다.

library(tseries)
set.seed(150421)
N<-rnorm(100)

win.graph(4,4); hist(N)
jarque.bera.test(N)
geo<-rgeom(100,0.5)

win.graph(4,4); hist(geo)
jarque.bera.test(geo)

같이보기