통계학에서의 부호 검정
가설검정 1
$n$ 개의 랜덤샘플이 $\left\{ \left( X_{k} , Y_{k} \right) \right\}_{k=1}^{n}$ 과 같이 순서쌍으로 주어져 있다고 하자. 두 모집단 $X_{1} , \cdots , X_{n}$ 과 $Y_{1} , \cdots , Y_{n}$ 의 분포에 따라 $X_{k}$ 가 $Y_{k}$ 보다 클 확률을 $p$ 라고 할 때, $p$ 에 대한 다음의 가설검정을 부호 검정sign test이라 한다.
- $H_{0} : p = 0.5$, 두 모집단의 분포는 같다.
- $H_{1} : p \ne 0.5$, 두 모집단의 분포는 같지 않다.
검정통계량
지시함수 $I$ 에 대해 다음과 같은 검정통계량 $T$ 를 정의한다. $$ T = \sum_{k=1}^{n} I \left( X_{k} > Y_{k} \right) $$ $T$ 는 $n$ 개의 샘플 중에서 $X_{k}$ 가 $Y_{k}$ 보다 클 경우의 수로써, 귀무가설이 참이라는 가정 하에서 이항분포 $B \left( n , p \right)$ 를 따른다.
설명
부호 검정은 말 그대로 주어진 순서쌍의 부호가 양수인 경우의 수를 세어서 통계량으로 사용하는 검정으로써, 데이터가 가진 제약에서 비교적 자유로운 비모수적 기법 중에서도 가장 적은 가정을 요구한다. 만-휘트니 검정와 같은 기법에서는 두 모집단의 분포 그 자체를 비교하는 게 아니라 그들의 로케이션 파라미터에 포커스를 두는데, 부호 검정은 말 그대로 어떤 기상천외한 분포도 허용하는 것처럼 보인다.
그러나 이러한 해석에는 커다란 맹점이 있다. 물론 분포에 대한 아무런 정보가 없음에도 이항분포를 떠올렸다는 점은 대단히 기발하나, 사실 모분산만 다른 두 정규분포 $N \left( 0 , 1 \right)$, $N \left( 0 , 2 \right)$ 의 경우만 생각해봐도 부호 검정은 이들을 구분할 수 없다.
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p639. ↩︎