만-휘트니 U 검정
가설검정 1
두 연속확률변수 $X, Y$ 가 주어져 있고, 총 $\left( n_{1} + n_{2} \right)$ 개의 랜덤샘플이 $X_{1} , \cdots , X_{n_{1}} \overset{\text{iid}}{\sim} X$ 와 $Y_{1} , \cdots , Y_{n_{2}} \overset{\text{iid}}{\sim} Y$ 와 같이 두 종류의 분포에서 샘플링되었다고 하자. 편의상 $X$ 를 첫번째 모집단, $Y$ 를 두번째 모집단이라 하겠다.
$X$ 와 $Y$ 의 누적분포함수를 각각 $F_{X}$, $F_{Y}$ 라 하고 이들이 로케이션 패밀리에 속한다고 가정하자. 다시 말해, 어떤 $\delta$ 에 대해 $F_{X} (z) = F_{Y} (z + \delta)$ 같이 나타낼 때 $\delta$ 에 대한 다음의 가설검정을 만-휘트니 $U$ 검정Mann-Whitney $U$ test이라 한다.
- $H_{0} : \delta = 0$, 두 모집단의 분포는 같다.
- $H_{1} : \delta \ne 0$, 두 모집단의 분포는 같지 않다.
검정통계량
이에 대해 다음과 같은 검정통계량들을 정의한다.
- 모든 샘플 중에서 $\left\{ X_{i} \right\}_{i=1}^{n_{1}}$ 들의 순위를 더한 값을 $T_{1}$, 모든 샘플 중에서 $\left\{ Y_{j} \right\}_{j=1}^{n_{2}}$ 들의 순위를 더한 값을 $T_{2}$ 라고 하자. $T_{1}$ 과 $T_{2}$ 를 윌콕슨 통계량Wilcoxon statistic이라 한다.
- $U_{1}$ 은 $X_{i}$ 가 $Y_{j}$ 보다 큰 경우의 수, $U_{2}$ 는 $Y_{j}$ 가 $X_{i}$ 보다 큰 경우의 수라고 하자. $U_{1}$ 과 $U_{2}$ 를 만-휘트니 통계량Mann-Whitney statistic이라 한다. 단, 확률변수의 값이 정확히 같아 $X_{i} = Y_{j}$ 인 경우는 그 확률이 $P \left( X_{i} = Y_{j} \right) = 0$ 이므로 거의 확실히 없다고 보고 배제한다.
검정통계량 $U_{1}$ 은 유의수준 $\alpha$ 에 대해 다음을 만족하는 가장 큰 정수 $u$ 와 비교해서 $U_{1} \le u$ 이면 $H_{0}$ 를 기각한다. $$ P \left( U_{1} \le u \right) \le \alpha / 2 $$ 여기서 등장한 기각역의 하한 $u$ 에 대해서는 $U_{1}$ 와 함께 별도로 설명하겠다.
정리
- [1] $U$ 의 합과 $T$ 의 합: 두 만-휘트니 통계량 $U_{1}$, $U_{2}$ 의 합은 다음과 같다. $$ U_{1} + U_{2} = n_{1} n_{2} $$ 두 윌콕슨 통계량 $T_{1}$, $T_{2}$ 의 합은 다음과 같다. $$ T_{1} + T_{2} = {{\left( n_{1} + n_{2} \right) \left( n_{1} + n_{2} + 1 \right)} \over 2} $$
- [2] $U$ 와 $T$ 의 관계: 첫번째 모집단에 대한 $U_{1}$ 과 $T_{1}$ 의 관계는 다음과 같다. $$ U_{1} = T_{1} - {{n_{1} \left( n_{1} + 1 \right)} \over 2} $$ 두번째 모집단에 대한 $U_{2}$ 와 $T_{2}$ 의 관계는 다음과 같다. $$ U_{2} = T_{2} - {{n_{2} \left( n_{2} + 1 \right)} \over 2} $$
설명
만-휘트니 $U$ 검정Mann-Whitney $U$ test은 윌콕슨 순위합 검정Wilcoxon rank-sum test로도 널리 알려져 있는 비모수적 검정으로써, 두 모집단이 주어져 있고 그들의 분포가 무엇인지는 모르지만 그 분포가 같은지 다른지는 알고 싶을 때 사용된다.
단 가설검정의 전제에서 언급하듯 이 ‘다름’이라는 것은 함수의 형태 그 자체가 아니라 위치, 정규분포를 예로 들 것 같으면 모평균의 차이에만 초점을 두었고 모분산을 비롯한 다른 요소까지 커버하지는 않는 것에 주의하도록 하자.
한편 정리 [2]에서 알 수 있듯 사실 $U$ 와 $T$ 는 단지 상수를 포함해서 나타날 뿐이며 통계량이라는 측면에선 같은 것이나 마찬가지다. 그럼에도 불구하고 이들이 두가지 이름을 가지는 것은 각자 나름의 이유가 있기 때문이다.
윌콕슨 순위합 통계량
현실적으로, $U_{1}$ 은 $T_{1}$ 을 통해서 계산된다. 단순하게 생각해봐도 $X_{i} > Y_{j}$ 인 경우를 모두 카운트 한다는 것은 이들 간의 비교를 위해 $n_{1}$ 개의 데이터셋과 $n_{2}$ 개의 데이터셋을 한 번은 순회해야 하므로 $O \left( n_{1} n_{2} \right)$ 만큼의 시간복잡도를 가진다. 만약 샘플의 수가 많지 않아 시간적인 부담이 적다고 할지라도 단순히 합을 계산하는 것보단 복잡하며, 이론을 떠나 실제로 $X_{i} = Y_{j}$ 와 같은 예외적인 동률이 발생하는 경우에도 $T_{1}$ 은 일관된 결과를 보장한다.
만-휘트니 $U$ 통계량
그러나 실제로 $U_{1}$ 가 계산되는 과정과는 별개로, 가설검정 자체는 $U_{1}$ 의 정의를 근거로 한다. 만약 귀무가설이 참이라는 가정 하에서 샘플이 뽑혔다면 결국 $U_{1}$ 의 분포는 확률의 가장 원초적인 개념인 빈도수에 의존할 수 밖에 없기 때문이다.
검정통계량을 소개할 때 기각역의 하한 $u$ 는 $P \left( U_{1} \le u \right) \le \alpha / 2$ 을 만족하는 가장 큰 정수라고 했는데, 실제로는 우변이 어떤 함수 $h$ 에 대해 다음과 같이 계산된다. $$ P \left( U_{1} \le u \right) \le \alpha / 2 \approx {\frac{ h \left( n_{1} , n_{2} , u \right) n_{1}! n_{2}! }{ \left( n_{1} + n_{2} \right)! }} $$ 여기서 $h \left( n_{1} , n_{2} , u \right)$ 는 귀무가설 $H_{0}$ 이 참이라는 가정 하에서 $\left( n_{1} + n_{2} \right)$ 개의 샘플 중에서 $U_{1} < u$ 가 일어나는 빈도를 나타내는 재귀함수로써, 만과 휘트니에 의해 다음이 증명되었다2. $$ \begin{align*} h \left( n_{1} , n_{2} , u \right) =& h \left( n_{1} - 1 , n_{2} , u - n_{2} \right) + h \left( n_{1} , n_{2} - 1 , u \right) \\ h \left( n_{1} , n_{2} , u \right) =& h \left( n_{2} , n_{1} , u \right) \\ h \left( n_{1} , n_{2} , 0 \right) =& h \left( n_{1} , 0 , u \right) = 1 \\ h \left( n_{1} , n_{2} , - \Delta \right) =& 0 \qquad , \Delta > 0 \end{align*} $$ 이에 따르면 $n_{1}$ 과 $n_{2}$ 이 주어져 있고 유의수준 $\alpha$ 가 달라질 때마다 $u$ 의 값도 달라지고, 따라서 다음과 같은 테이블을 만들어서 가설검정에 사용한다.
많은 교재에서 이러한 테이블이 왜 나오게 되었는지와 어떻게 $U_{1}$ 와 $T_{1}$ 의 관계가 성립하는지를 생략하고 있는데, 증명 과정을 차분히 들여다보면 책 너머에 있는 내용도 간단히 납득할 수 있다.
증명
$I (X > Y)$ 는 $X > Y$ 인 경우에만 1, 그렇지 않으면 0 을 가지는 지시함수라고 하자. $R(Z)$ 는 전체 샘플에서 $Z$ 의 랭크고, $R_{1} \left( X_{i} \right)$ 는 첫번째 샘플 중에서 $X_{i}$ 의 랭크, $R_{2} \left( Y_{j} \right)$ 는 두번째 샘플 중에서 $Y_{j}$ 의 랭크라고 하자.
[1]
$$ \begin{align*} U_{1} =& \sum_{i=1}^{n_{1}} \sum_{j=1}^{n_{2}} I \left( X_{i} > Y_{j} \right) \\ U_{2} =& \sum_{i=1}^{n_{1}} \sum_{j=1}^{n_{2}} I \left( X_{i} < Y_{j} \right) \end{align*} $$ $U_{1}$ 과 $U_{2}$ 는 모든 $i = 1, \cdots , n_{1}$ 와 $j = 1, \cdots , n_{2}$ 에 대해 $X_{i}$ 와 $Y_{j}$ 를 비교하여 위와 같이 나타낼 수 있고, 그 합은 다음과 같다. $$ U_{1} + U_{2} = \sum_{i=1}^{n_{1}} \sum_{j=1}^{n_{2}} I \left( X_{i} \ne Y_{j} \right) = n_{1} n_{2} $$
등차수열의 합 공식: 초항이 $a$ 고 공차가 $d$ 인 등차수열 $a_{n} = a+(n-1)d$ 에 대해 $$ \sum_{k=1}^{n} a_{k}= {{n \left\{ 2a + (n-1)d \right\} } \over {2}} $$
샘플 사이즈가 $\left( n_{1} + n_{2} \right)$ 이므로 순위의 총합은 다음과 같다. $$ T_{1} + T_{2} = {{\left( n_{1} + n_{2} \right) \left( n_{1} + n_{2} + 1 \right)} \over 2} $$
■
[2]
전체 샘플에서 $X_{i}$ 의 랭크 $R \left( X_{i} \right)$ 라는 것은 첫번째 모집단에서의 랭크 $R_{1} \left( X_{i} \right)$ 에 더불어 $X_{i}$ 보다 작은 $Y_{j}$ 의 합이어야 하고, 이를 수식으로 나타내면 다음과 같다. $$ R \left( X_{i} \right) = R_{1} \left( X_{i} \right) + \sum_{j=1}^{n_{2}} I \left( X_{i} > Y_{j} \right) $$ 윌콕슨 순서합 통계량은 $T_{1} = \sum_{i=1}^{n_{1}} R \left( X_{i} \right)$ 이므로, 모든 $i = 1, \cdots , n_{1}$ 에 대해 $R \left( X_{i} \right)$ 을 더하면 다음과 같다. $$ \begin{align*} \sum_{i=1}^{n_{1}} R \left( X_{i} \right) =& \sum_{i=1}^{n_{1}} R_{1} \left( X_{i} \right) + \sum_{i=1}^{n_{1}} \sum_{j=1}^{n_{2}} I \left( X_{i} > Y_{j} \right) \\ \sum_{i=1}^{n_{1}} R \left( X_{i} \right) =& T_{1} \\ \sum_{i=1}^{n_{1}} R_{1} \left( X_{i} \right) =& \sum_{i=1}^{n_{1}} i = {{n_{1} \left( n_{1} + 1 \right)} \over 2} \\ \sum_{i=1}^{n_{1}} \sum_{j=1}^{n_{2}} I \left( X_{i} > Y_{j} \right) =& U_{1} \end{align*} $$ 이를 다시 적어보면 다음과 같다. $$ U_{1} = T_{1} - {{n_{1} \left( n_{1} + 1 \right)} \over 2} $$ 이와 같은 방법으로 $U_{2}$ 와 $T_{2}$ 의 관계도 증명할 수 있다.
■
Milton, R. C. (1964). An Extended Table of Critical Values for the Mann-Whitney (Wilcoxon) Two-Sample Statistic. Journal of the American Statistical Association, 59(307), 925–934. https://doi.org/10.1080/01621459.1964.10480740 ↩︎
Mann, H. B., & Whitney, D. R. (1947). On a test of whether one of two random variables is stochastically larger than the other. The annals of mathematical statistics, 50-60. https://psycnet.apa.org/doi/10.1214/aoms/1177730491 ↩︎