윌콕슨 부호순위 검정
가설검정
$n$ 개의 랜덤샘플이 $\left\{ \left( X_{k} , Y_{k} \right) \right\}_{k=1}^{n}$ 과 같이 순서쌍으로 주어져 있다고 하자. 이들의 차이로 정의되는 확률변수 $Z_{k} = X_{k} - Y_{k}$ 는 유일한 모평균이자 모중위수인 $\theta$ 를 가지는 연속확률분포를 따르며, 그 확률밀도함수 $f(z)$ 는 $z = \theta$ 에 대해서 대칭인 함수라 가정하자1 2. $\theta$ 에 대한 다음의 가설검정을 윌콕슨 부호순위 검정Wilcoxon signed-rank test이라 한다.
- $H_{0} : \theta = 0$, 두 모집단의 차이는 없다.
- $H_{1} : \theta \ne 0$, 두 모집단의 차이가 있다.
검정통계량 3
지시함수 $I$, 최소값 $\min$ 과 $Z_{k}$ 의 절대값 $\left\{ \left| Z_{k} \right| \right\}_{k=1}^{n}$ 에서의 랭크 $R$ 에 대해 다음과 같은 검정통계량 $T$ 를 정의한다. $$ \begin{align*} T^{+} &= \sum_{k=1}^{n} I \left( Z_{k} > 0 \right) R \left( \left| Z_{k} \right| \right) \\ T^{-} &= \sum_{k=1}^{n} I \left( Z_{k} < 0 \right) R \left( \left| Z_{k} \right| \right) \\ T =& \min \left( T^{+} , T^{-} \right) \end{align*} $$
설명
검정통계량의 정의가 다소 복잡해 보이지만, 그 과정을 생각해보면 그다지 어려울 건 없다:
- 모든 $k = 1 , \cdots , n$ 에 대해 $X_{k}$ 와 $Y_{k}$ 의 차이를 구한다.
- $\left| Z_{k} \right| = \left| X_{k} - Y_{k} \right|$ 를 구해서 순위를 매긴다.
- 차가 양수인 그룹과 음수인 그룹으로 나눠서 $T^{+}$, $T^{-}$ 를 계산한다.
- 둘 중 작은 것을 $T$ 로 선택한다.
계산과정은 어떻게 보면 만-휘트니 검정과 부호 검정을 섞은 것처럼 보이기도 한다. $Z_{k}$ 의 부호에 따라 원래는 구분되지 않던 $n = n_{1} + n_{2}$ 개의 샘플을 나누고 그 순위합을 계산하는 점이 그러하다. 실제로 가설검정 역시 만-휘트니 검정과 유사하게 별도의 테이블을 사용한다.
한편 교재나 논문에 따라 $T^{+}$ 와 $T^{-}$ 중 어느 것을 선택할지에 대한 기준이 다를 수도 있고 애초에 $T^{+}$ 만 계산하기도 하는데, 수식적으로는 사실 $T^{+} + T^{-} = n \left( n + 1 \right) / 2$ 이기 때문에 하나를 알면 나머지 하나의 정보도 모두 아는 것이나 마찬가지기 때문이다. 어떤 방식을 선택하느냐에 따라 테이블이 달라지기는 하지만 본질적인 차이는 없다.
Taheri, S.M., Hesamian, G. A generalization of the Wilcoxon signed-rank test and its applications. Stat Papers 54, 457–470 (2013). https://doi.org/10.1007/s00362-012-0443-4 ↩︎
Gwowen Shieh , Show-Li Jan & Ronald H. Randles (2007) Power and sample size determinations for the Wilcoxon signed-rank test, Journal of Statistical Computation and Simulation, 77:8, 717-724, DOI: 10.1080/10629360600635245 ↩︎
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p646. ↩︎