logo

크루스칼-월리스 H 검정 📂통계적검정

크루스칼-월리스 H 검정

가설검정 1

실험 설계 상 $k$ 개의 처리가 있을 때, 각 처리에서 $n_{j}$ 개씩 총 $n = n_{1} + \cdots + n_{k}$ 개의 표본을 얻었다고 하자. $j = 1 , \cdots , k$ 번째 처리의 표본이 각자 독립적이고 랜덤하게 같은 로케이션 패밀리에서 샘플링되었고, $j$번째 모집단모중위수를 $\theta_{j}$ 라 가정하자. $\theta_{1} , \cdots , \theta_{k}$ 에 대한 다음의 가설검정크루스칼-월리스 $H$ 검정Kruskal-Wallis $H$ test이라고 한다.

  • $H_{0}$: $\theta_{1} = \cdots = \theta_{k}$
  • $H_{1}$: 적어도 하나의 $\theta_{j}$ 는 다른 중위수와 다르다.

검정통계량

검정통계량은 $j$번째 모집단에서 얻은 표본의 순위의 합rank-sum $R_{j}$ 에 대해 다음과 같다. $$ H = {\frac{ 12 }{ n \left( n + 1 \right) }} \sum_{j=1}^{k} {\frac{ R_{j}^{2} }{ n_{j} }} - 3 \left( n + 1 \right) $$ 이 검정통계량은 각각의 $n_{j}$ 들이 충분히 클 때 자유도가 $k-1$ 인 카이제곱분포 $\chi^{2} \left( k - 1 \right)$ 를 따른다.

설명

크루스칼-월리스 검정은 모수적인 기법 중에서는 일원분산분석에 해당하는 비모수적 기법으로써 $k$ 가지의 모집단을 동시에 비교한다는 점에서 그 자체로 윌콕슨 부호순위 검정의 일반화다. 유의수준 $\alpha$ 에 대해 기각역의 하한 $\chi^{2}_{1-\alpha} (k-1)$ 과 비교해서 $H > \chi^{2}_{1-\alpha} (k-1)$ 이면 귀무가설을 기각해서 적어도 하나의 모집단이 다른 모집단과 다르다고 결론내린다.

수식만 봐서는 검정통계량의 공식이 황당할 정도로 어수선한데, 이 유도과정을 이해하기 위해서는 꽤나 많은 배경지식이 필요하다. 아래에서 엄밀한 유도과정을 소개하겠지만, 직관적으로 먼저 생각해보자면 귀무가설이 참이라는 가정이 없다면 각 모집단에서 얻은 순위의 표본평균 $\overline{R}_{j}$ 에 대해 $$ \sum_{j=1}^{k} \left( \overline{R}_{j} - {\frac{ n \left( n + 1 \right) }{ 2 }} \right)^{2} $$ 이라는 통계량이 꽤 클 수 있다는 아이디어에서 시작한다. 각 모집단의 분포가 어떤 분포를 따르든 같은 분포에서 나왔다면 그 순위합엔 큰 차이가 없어야 할테고, 이것을 카이제곱분포와 연결시키는 것이 크루스칼-월리스 검정의 핵심이다.

유도

참고로 필자는 구할 수 있는 모든 자료들을 다 뒤져봤지만 수식적으로 깔끔한 유도과정을 찾지 못해서 사실상 거의 모든 부분을 직접 증명했고, 내가 아는 한 이 세상에 이보다 쉽고 친절한 문서는 존재하지 않는다. 이 글을 보고 있는 여러분에게 큰 도움이 되길 바란다.

일반성을 잃지 않고, 순위에는 동률tie이 없다고 가정하자.


Part 1. $H$ 의 정의

$j = 1 , \cdots , k$ 번째 모집단에서 얻은 표본만으로 구한 순위의 평균을 $\overline{R}_{j}$ 와 같이 나타내고, 전체 순위합을 $\overline{R}$ 과 같이 나타내자. $n_{j}$ 가 너무 작지만 않다면 $\overline{R}_{j}$ 은 중심극한정리에 따라 근사적으로 정규분포를 따른다.

중심극한정리: $\left\{ X_{k} \right\}_{k=1}^{n}$ 이 iid 확률 변수들이고 확률분포 $\left( \mu, \sigma^2 \right) $를 따른다고 하면 $n \to \infty$ 일 때 $$ \sqrt{n} {{ \overline{X}_n - \mu } \over {\sigma}} \overset{D}{\to} N (0,1) $$

$$ \begin{align*} \overline{R}_{j} :=& {\frac{ R_{j} }{ n_{j} }} \\ \overline{R} :=& {\frac{ n + 1 }{ 2 }} \end{align*} $$

모평균을 알 때의 편차제곱의 가중합: 실험 설계 상 $k$ 개의 처리가 있을 때, 각 처리에서 $n_{j}$ 개씩 총 $n = n_{1} + \cdots + n_{k}$ 개의 표본을 얻었다고 하자. $j = 1 , \cdots , k$ 번째 처리의 표본이 각자 독립적이고 랜덤하게 정규분포 $N \left( \mu_{j} , \sigma_{j}^{2} \right)$ 를 따르며, 각 정규분포의 모분산이 같아서 $\sigma^{2} = \sigma_{1}^{2} = \cdots = \sigma_{k}^{2}$ 라 가정하자. 다음과 같은 편차제곱의 가중합으로 정의되는 통계량자유도가 $(k-1)$ 인 카이제곱분포를 따른다. $$ \sum_{j=1}^{k} \frac{ \left( \bar{x}_{j} - \bar{x} \right)^{2} }{ \sigma^{2} / n_{j} } \sim \chi^{2} \left( k - 1 \right) $$ 이는 $\left( \bar{x}_{j} - \bar{x} \right)$ 가 정규분포를 따른다면 표본 그 자체가 정규분포를 따르지 않더라도 성립한다.

$$ \sum_{j=1}^{k} {\frac{ \left( \overline{R}_{j} - \overline{R} \right)^{2} }{ \sigma^{2} / n_{j} }} \sim \chi^{2} \left( k - 1 \right) $$ 만약 귀무가설이 참이라면, 위와 같이 얻을 수 있는 통계량은 카이제곱분포를 따른다. 다만 실제로는 다음과 같이 보정 팩터 $(n-1)/n$ 가 곱해진 $H$ 를 사용할 것이다. $$ H = {\frac{ n-1 }{ n }} \cdot \sum_{j=1}^{k} {\frac{ \left( \overline{R}_{j} - \overline{R} \right)^{2} }{ \sigma^{2} / n_{j} }} $$ 이러한 보정에 대한 정당화 역시 아래에서 다루므로 걱정하지 않아도 된다.


Part 2. $H$ 전개

랭크의 평균과 분산: $n$ 개의 연속확률변수 $X_{1} , \cdots , X_{n}$ 이 iid로 주어져 있다고 하자. 각 샘플의 랭크를 $R \left( X_{1} \right) , \cdots , R \left( X_{n} \right)$ 이라고 할 때, 랭크가 따르는 확률분포이산일양분포 $U (1, n)$ 고 $R$ 의 기대값분산은 다음과 같다. $$ \begin{align*} E \left( R \right) =& {\frac{ n + 1 }{ 2 }} \\ \Var \left( R \right) =& {\frac{ n^{2} - 1 }{ 12 }} \end{align*} $$

$\overline{R} = (n+1)/2$ 이므로, $H$ 의 양변을 조금 간단하게 두고 전개하면 다음과 같다. $$ \begin{align*} & {\frac{ n \sigma^{2} }{ n - 1 }} H \\ =& \sum_{j=1}^{k} n_{j} \left( \overline{R}_{j} - \overline{R} \right)^{2} \\ =& \sum_{j=1}^{k} \left[ R_{j} \overline{R}_{j} - 2 R_{j} \overline{R} + n_{j} \overline{R}^{2} \right] \\ =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - 2 \overline{R} \sum_{j=1}^{k} R_{j} + \overline{R}^{2} \sum_{j=1}^{k} n_{j} \\ =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - 2 \overline{R} {\frac{ n(n+1) }{ 2 }} + \overline{R}^{2} n \\ =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - n \overline{R} \left[ (n+1) - \overline{R} \right] \\ =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - n \overline{R} \left[ 2 \overline{R} - \overline{R} \right] \\ =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - n \overline{R}^{2} \\ =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - n {\frac{ (n+1)^{2} }{ 4 }} \end{align*} $$ 여기서 $\sigma^{2} = (n^{2}-1)/12$ 이므로, $H$ 에 대해 정리하면 다음과 같다.

$$ \begin{align*} {\frac{ n \sigma^{2} }{ n - 1 }} H =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - n {\frac{ (n+1)^{2} }{ 4 }} \\ \implies {\frac{ n }{ n - 1 }} {\frac{ (n-1)(n+1) }{ 12 }} H =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - n {\frac{ (n+1)^{2} }{ 4 }} \\ \implies H =& {\frac{ 12 }{ n (n+1) }} \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - 3 (n+1) \end{align*} $$


Part 3. 보정에 대한 정당화

원래 $\sum n_{j} \left( \overline{R}_{j} - \overline{R} \right)^{2} / \sigma^{2}$ 이 카이제곱을 따르는 게 맞지만, 실제로는 이론보다 조금 과장되기 때문에 $(n-1) / n$ 을 곱해주어 보정해준 $H$ 를 사용했다. 이러한 보정은 그냥 대충 적당한 값을 곱하는 게 아니라, 충분히 큰 $n$ 에 대해 $(n-1) / n \approx 1$ 이면서 실제로 $H$ 의 기대값이 $(k-1)$ 이 되게끔 해주는 모먼트 메서드를 통해 이루어진다.

유한 모집단 보정 계수: 모분산이 $\sigma^{2}$ 인 랜덤샘플 $X_{1} , \cdots , X_{N}$ 이 주어져 있다고 할 때, 전체 샘플에 대한 표본평균 $\overline{X}_{N}$ 의 분산은 $\sigma^{2} / N$ 이다. 그 중 $n \le N$ 개만큼 비복원추출한 표본에 표본평균은 다음과 같은 분산을 가지며, 표준오차 $\text{s.e.} \left( \overline{X}_{n} \right) = \sigma^{2} / n$ 의 제곱항에 곱해진 $\text{FPC} = \left( N - n \right) / \left( N - 1 \right)$ 를 유한 모집단 보정 계수finite population correction factor라고 한다. $$ \Var \left( \overline{X}_{n} \right) = \text{s.e.} \left( \overline{X}_{n} \right) \cdot \text{FPC} = {\frac{ \sigma^{2} }{ n }} \cdot {\frac{ N - n }{ N - 1 }} $$

$\sum n_{j} \left( \overline{R}_{j} - \overline{R} \right)^{2}$ 의 기대값은 다음과 같다. $$ \begin{align*} & E \left( \sum_{j=1}^{k} n_{j} \left( \overline{R}_{j} - \overline{R} \right)^{2} \right) \\ =& E \left( \sum_{j=1}^{k} n_{j} \left[ \left( \overline{R}_{j}^{2} - 2 \overline{R}_{j} \overline{R} + \overline{R}^{2} \right) \right] \right) \\ =& \sum_{j=1}^{k} n_{j} \left[ E \left( \overline{R}_{j}^{2} \right) - 2 \overline{R} E \left( \overline{R}_{j} \right) + \overline{R}^{2} \right] \\ =& \sum_{j=1}^{k} n_{j} \left[ E \left( \overline{R}_{j}^{2} \right) - E \left( \overline{R}_{j} \right)^{2} \right] \\ =& \sum_{j=1}^{k} n_{j} \Var \left( \overline{R}_{j} \right) \\ =& \sum_{j=1}^{k} n_{j} {\frac{ \sigma^{2} }{ n_{j} }} {\frac{ n - n_{j} }{ n - 1 }} \\ =& \sum_{j=1}^{k} {\frac{ n^{2} - 1 }{ 12 }} {\frac{ n - n_{j} }{ n - 1 }} \\ =& {\frac{ n + 1 }{ 12 }} \sum_{j=1}^{k} \left( n - n_{j} \right) \\ =& {\frac{ n + 1 }{ 12 }} \left( n k - n \right) \end{align*} $$ 이를 $\sum n_{j} \left( \overline{R}_{j} - \overline{R} \right)^{2} / \sigma^{2}$ 의 기대값으로 정리하면 다음과 같다. $$ {\frac{ 1 }{ \sigma^{2} }} E \left( \sum n_{j} \left( \overline{R}_{j} - \overline{R} \right)^{2} \right) = {\frac{ 12 }{ n^{2} - 1 }} {\frac{ n + 1 }{ 12 }} n \left( k - 1 \right) = {\frac{ n }{ n - 1 }} \left( k - 1 \right) $$

카이제곱 분포의 평균과 분산: $X \sim \chi^{2} (r)$ 이면 $$ \begin{align*} E(X) =& r \\ \Var (X) =& 2r \end{align*} $$

충분히 많은 표본에 대해 카이제곱분포 $\chi^{2} (k-1)$ 를 따르는 $H$ 의 기대값은 다음과 같이 정확히 $(k-1)$ 이다. $$ E \left( H \right) = E \left( {\frac{ n-1 }{ n }} \cdot \sum_{j=1}^{k} {\frac{ \left( \overline{R}_{j} - \overline{R} \right)^{2} }{ \sigma^{2} / n_{j} }} \right) = k -1 $$

같이보기

실험설계모수적 기법비모수적 기법
완전랜덤화설계일원분산분석크루스칼-월리스 $H$ 검정
랜덤화블럭설계이원분산분석프리드만 $F_{r}$ 검정

  1. Kruskal, W. H., & Wallis, W. A. (1952). Use of Ranks in One-Criterion Variance Analysis. Journal of the American Statistical Association, 47(260), 583–621. https://doi.org/10.2307/2280779 https://medstatistic.ru/articles/Kruskal%20and%20Wallis%201952.pdf ↩︎