logo

두 모평균의 차에 대한 대표본 가설검정 📂통계적검정

두 모평균의 차에 대한 대표본 가설검정

가설검정 1

서로 독립인 두 모집단의 분포가 각각 $\left( \mu_{1} , \sigma_{1}^{2} \right)$ 과 $\left( \mu_{2} , \sigma_{2}^{2} \right)$ 를 따른다고 하자. 표본이 대표본인 경우, 즉 표본의 수가 $n_{1} , n_{2} > 30$ 일 때 두 모평균의 차이에 대한 후보 $D_{0}$ 에 대한 가설검정은 다음과 같다.

  • $H_{0}$: $\mu_{1} - \mu_{2} = D_{0}$ 다. 즉, 모평균의 차는 $D_{0}$ 다.
  • $H_{1}$: $\mu_{1} - \mu_{2} = D_{0}$ 다. 즉, 모평균의 차는 $D_{0}$ 이 아니다.

검정통계량

검정통계량은 모표준편차 $\sigma_{1}, \sigma_{2}$ 를 아는지와 모르는지에 따라 조금 다르게 계산된다.

  • $\sigma_{1} , \sigma_{2}$ 를 알 때: 모표준편차 $\sigma_{1} , \sigma_{2}$ 를 그대로 써서 다음과 같다. $$ Z = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ {{ \sigma_{1}^{2} } \over { n_{1} }} + {{ \sigma_{2}^{2} } \over { n_{2} }} } }} $$
  • $\sigma_{1}, \sigma_{2}$ 를 모를 때: 표본표준편차 $s_{1}, s_{2}$ 를 써서 다음과 같다. $$ Z = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ {{ s_{1}^{2} } \over { n_{1} }} + {{ s_{2}^{2} } \over { n_{2} }} } }} $$

설명

아마도 $D_{0}$ 로 가장 많이 쓰이는 것은 $0$ 일텐데, 대개의 경우 ‘정확한 격차가 어느정도인지’보다는 ‘두 분포의 모평균이 같은지’와 같은 핵심적인 부분이 궁금할 것이기 때문이다. 검정통계량의 꼴에서 가장 복잡해보이는 것은 분모에 있는 $\sqrt{ {{ \sigma_{1}^{2} } \over { n_{1} }} + {{ \sigma_{2}^{2} } \over { n_{2} }} }$ 인데, 수리통계학을 배우고나면 그 유도를 알 수 있게 돼서 공부가 재미있어진다. 신입생이라면 아쉽게도 외워야한다.

유도

중심극한정리: $\left\{ X_{k} \right\}_{k=1}^{n}$ 이 iid 확률 변수들이고 확률분포 $\left( \mu, \sigma^2 \right) $를 따른다고 하면 $n \to \infty$ 일 때 $$ \sqrt{n} {{ \overline{X} - \mu } \over {\sigma}} \overset{D}{\to} N (0,1) $$

두 모집단에서 얻은 대표본이라 가정했으므로 모집단의 분포가 무엇이든 중심극한정리에 따라 $\overline{X}_{1}, \overline{X}_{2}$ 은 다음과 같이 정규분포를 따른다. $$ \begin{align*} \overline{X}_{1} =& {{ 1 } \over { n_{1} }} \sum_{k=1}^{n_{1}} X_{1} \sim N \left( \mu_{1} , {{ \sigma_{1}^{2} } \over { n_{1} }} \right) \\ \overline{X}_{2} =& {{ 1 } \over { n_{2} }} \sum_{k=1}^{n_{2}} X_{2} \sim N \left( \mu_{2} , {{ \sigma_{2}^{2} } \over { n_{2} }} \right) \end{align*} $$

정규분포의 합: 확률 변수 $X_{1} , \cdots , X_{n}$ 들이 상호 독립이라고 하자.

  • $X_i \sim N( \mu_{i}, \sigma_{i}^{2} )$ 이면 주어진 벡터 $(a_{1} , \cdots , a_{n}) \in \mathbb{R}^{n}$ 에 대해 $$ \displaystyle \sum_{i=1}^{n} a_{i} X_{i} \sim N \left( \sum_{i=1}^{n} a_{i } \mu_{i} , \sum_{i=1}^{n} a_{i }^2 \sigma_{i}^2 \right) $$

주어진 벡터 $\left( a_{1} , a_{2} \right) = (1, -1) \in \mathbb{R}^{2}$ 에 대해 $$ \begin{align*} \overline{X}_{1} - \overline{X}_{2} =& a_{1} \overline{X}_{1} + a_{2} \overline{X}_{2} \\ \sim& N \left( \sum_{i=1}^{2} a_{i } \mu_{i} , \sum_{i=1}^{2} a_{i }^2 \sigma_{i}^2 \right) \\ \sim& N \left( \mu_{1} - \mu_{2} , 1^{2} \cdot {{ \sigma^{2} } \over { n_{1} }} + (-1)^{2} \cdot {{ \sigma^{2} } \over { n_{2} }} \right) \end{align*} $$ 이므로 귀무가설 $H_{0} : \mu_{1} - \mu_{2} = D_{0}$ 하에서 $$ Z = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ {{ \sigma_{1}^{2} } \over { n_{1} }} + {{ \sigma_{2}^{2} } \over { n_{2} }} } }} \sim N \left( 0, 1 \right) $$ 는 표준정규분포 $N (0,1)$ 에 거의 근사한 분포를 따른다. 마찬가지로 대표본인 경우 $s \approx \sigma$ 이므로 모분산을 모를 때는 $\sigma$ 대신 $s$ 를 사용해도 무방하다. 확률변수 $Y$ 가 표준정규분포를 따른다고 할 때, 유의수준 $\alpha$ 에 대해 $P \left( Y \ge z_{\alpha} \right) = \alpha$ 를 만족시키는 $z_{\alpha}$ 에 대해 $H_{0}$ 가 기각된다는 것은 다음과 동치다. $$ \left| Z \right| \ge z_{\alpha} $$ 이는 귀무가설에 따라 $\mu_{1} - \mu_{2} = D_{0}$ 이라고 믿기엔 $\overline{X}_{1} - \overline{X}_{2}$ 이 $D_{0}$ 에서 너무 멀리 떨어져있다는 의미가 된다.


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p363. ↩︎