두 모평균의 차에 대한 소표본 가설검정
가설검정 1
서로 독립인 두 모집단의 분포가 각각 정규분포 $N \left( \mu_{1} , \sigma_{1}^{2} \right)$ 과 $N \left( \mu_{2} , \sigma_{2}^{2} \right)$ 를 따르며 $\sigma_{1}^{2} = \sigma^{2} = \sigma_{2}^{2}$, 즉 각각의 모분산을 알 수는 없지만 서로 같다고는 가정하자. 표본이 소표본인 경우, 즉 표본의 수가 $n_{1} , n_{2} < 30$ 일 때 두 모평균의 차이에 대한 후보 $D_{0}$ 에 대한 가설검정은 다음과 같다.
- $H_{0}$: $\mu_{1} - \mu_{2} = D_{0}$ 다. 즉, 모평균의 차는 $D_{0}$ 다.
- $H_{1}$: $\mu_{1} - \mu_{2} = D_{0}$ 다. 즉, 모평균의 차는 $D_{0}$ 이 아니다.
검정통계량
검정통계량은 표본표준편차 $s_{1}, s_{2}$ 를 써서 다음과 같다. $$ t = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ s_{p}^{2} \left( {{ 1 } \over { n_{1} }} + {{ 1 } \over { n_{2} }} \right) } }} $$ 여기서 $s_{p}^{2}$ 는 다음과 같이 계산되는 표본합동분산이다. $$ s_{p}^{2} = {{ \left( n_{1} - 1 \right) s_{1}^{2} + \left( n_{2} - 1 \right) s_{2}^{2} } \over { n_{1} + n_{2} - 2 }} $$ 이 검정통계량은 t-분포를 따르는데, 그 자유도 $\mathrm{df}$ 는 바닥함수 $\lfloor \cdot \rfloor$ 에 대해 다음과 같이 계산된다. $$ \mathrm{df} = \left\lfloor {{ \left( {{ s_{1}^{2} } \over { n_{1} }} + {{ s_{2}^{2} } \over { n_{2} }} \right)^{2} } \over { {{ \left( s_{1}^{2} / n_{1} \right)^{2} } \over { n_{1} - 1 }} + {{ \left( s_{2}^{2} / n_{2} \right)^{2} } \over { n_{2} - 1 }} }} \right\rfloor $$
유도
전략: 기본적으로 신입생은 물론 어느정도 짬이 찬 학부생 수준에서도 이해하기 어려우며, 석사 이상 정도 짬은 차야 직관적으로 받아들일 수 있다. 반대로 말해서 그정도 공부했으면 사실 보조정리 몇 개 나열하는 정도로 끝난다.
표본합동분산: 각 모분산을 알 수는 없지만 같다고 가정할 수 있을 때, 모분산에 대한 불편추정량은 다음과 같다. $$ S_{p}^{2} := {{ \left( n_{1} - 1 \right) S_{1}^{2} + \cdots + \left( n_{m} - 1 \right) S_{m}^{2} } \over { \left( n_{1} - 1 \right) + \cdots + \left( n_{m} - 1 \right) }} = {{ \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} } \over { \sum_{i=1}^{m} \left( n_{i} - 1 \right) }} $$
새터스화이트 근사: $k = 1, \cdots , n$ 에 대해 $Y_{k} \sim \chi_{r_{k}}^{2}$ 이고 $a_{k} \in \mathbb{R}$ 이라고 하자. 만약 어떤 $\nu > 0$ 에 대해 $$ \sum_{k=1}^{n} a_{k} Y_{k} \sim {{ \chi_{\nu}^{2} } \over { \nu }} $$ 라고 가정하면, 그 추정량으로써 다음의 $\hat{\nu}$ 를 사용할 수 있다. $$ \hat{\nu} = {{ \left( \sum_{k} a_{k} Y_{k} \right)^{2} } \over { \sum_{k} {{ a_{k}^{2} } \over { r_{k} }} Y_{k}^{2} }} $$
독립인 정규 분포와 카이제곱 분포에서 스튜던트 t-분포 유도: 두 확률 변수 $W,V$ 가 독립이고 $W \sim N(0,1)$, $V \sim \chi^{2} (r)$ 이라 하면 $$ T = { {W} \over {\sqrt{V/r} } } \sim t(r) $$
$$ t = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ s_{p}^{2} \left( {{ 1 } \over { n_{1} }} + {{ 1 } \over { n_{2} }} \right) } }} = {{ { \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \displaystyle \sigma / \sqrt{ {{ 1 } \over { n_{1} }} + {{ 1 } \over { n_{2} }} } } } \over { \sqrt{ \displaystyle {{ \textrm{df} s_{p}^{2} } \over { \sigma^{2} }} / \textrm{df} } }} $$ 새터스화이트 근사에 따라 우변의 분모는 자유도 $\mathrm{df}$ 의 카이제곱분포를 따르고 분자는 표준정규분포를 따르며, $t$ 는 근사적으로 자유도 $\mathrm{df}$ 의 t-분포를 따른다. 확률변수 $Y$ 가 t-분포 $t(\mathrm{df})$ 을 따른다고 할 때, 유의수준 $\alpha$ 에 대해 $P \left( Y \ge t_{\alpha} \right) = \alpha$ 를 만족시키는 $t_{\alpha}$ 에 대해 $H_{0}$ 가 기각된다는 것은 다음과 동치다. $$ \left| t \right| \ge t_{\alpha} $$ 이는 귀무가설에 따라 $\mu_{1} - \mu_{2} = D_{0}$ 이라고 믿기엔 $\overline{X}_{1} - \overline{X}_{2}$ 이 $D_{0}$ 에서 너무 멀리 떨어져있다는 의미가 된다.
■
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p400. ↩︎