logo

두 모평균의 차에 대한 대표본 가설검정 📂통계적검정

두 모평균의 차에 대한 대표본 가설검정

가설검정 1

서로 독립인 두 모집단의 분포가 각각 (μ1,σ12)\left( \mu_{1} , \sigma_{1}^{2} \right)(μ2,σ22)\left( \mu_{2} , \sigma_{2}^{2} \right) 를 따른다고 하자. 표본이 대표본인 경우, 즉 표본의 수가 n1,n2>30n_{1} , n_{2} > 30 일 때 두 모평균의 차이에 대한 후보 D0D_{0} 에 대한 가설검정은 다음과 같다.

  • H0H_{0}: μ1μ2=D0\mu_{1} - \mu_{2} = D_{0} 다. 즉, 모평균의 차는 D0D_{0} 다.
  • H1H_{1}: μ1μ2=D0\mu_{1} - \mu_{2} = D_{0} 다. 즉, 모평균의 차는 D0D_{0} 이 아니다.

검정통계량

검정통계량은 모표준편차 σ1,σ2\sigma_{1}, \sigma_{2} 를 아는지와 모르는지에 따라 조금 다르게 계산된다.

  • σ1,σ2\sigma_{1} , \sigma_{2} 를 알 때: 모표준편차 σ1,σ2\sigma_{1} , \sigma_{2} 를 그대로 써서 다음과 같다. Z=(X1X2)D0σ12n1+σ22n2 Z = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ {{ \sigma_{1}^{2} } \over { n_{1} }} + {{ \sigma_{2}^{2} } \over { n_{2} }} } }}
  • σ1,σ2\sigma_{1}, \sigma_{2} 를 모를 때: 표본표준편차 s1,s2s_{1}, s_{2} 를 써서 다음과 같다. Z=(X1X2)D0s12n1+s22n2 Z = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ {{ s_{1}^{2} } \over { n_{1} }} + {{ s_{2}^{2} } \over { n_{2} }} } }}

설명

아마도 D0D_{0} 로 가장 많이 쓰이는 것은 00 일텐데, 대개의 경우 ‘정확한 격차가 어느정도인지’보다는 ‘두 분포의 모평균이 같은지’와 같은 핵심적인 부분이 궁금할 것이기 때문이다. 검정통계량의 꼴에서 가장 복잡해보이는 것은 분모에 있는 σ12n1+σ22n2\sqrt{ {{ \sigma_{1}^{2} } \over { n_{1} }} + {{ \sigma_{2}^{2} } \over { n_{2} }} } 인데, 수리통계학을 배우고나면 그 유도를 알 수 있게 돼서 공부가 재미있어진다. 신입생이라면 아쉽게도 외워야한다.

유도

중심극한정리: {Xk}k=1n\left\{ X_{k} \right\}_{k=1}^{n}iid 확률 변수들이고 확률분포 (μ,σ2)\left( \mu, \sigma^2 \right) 를 따른다고 하면 nn \to \infty 일 때 nXμσDN(0,1) \sqrt{n} {{ \overline{X} - \mu } \over {\sigma}} \overset{D}{\to} N (0,1)

두 모집단에서 얻은 대표본이라 가정했으므로 모집단의 분포가 무엇이든 중심극한정리에 따라 X1,X2\overline{X}_{1}, \overline{X}_{2} 은 다음과 같이 정규분포를 따른다. X1=1n1k=1n1X1N(μ1,σ12n1)X2=1n2k=1n2X2N(μ2,σ22n2) \begin{align*} \overline{X}_{1} =& {{ 1 } \over { n_{1} }} \sum_{k=1}^{n_{1}} X_{1} \sim N \left( \mu_{1} , {{ \sigma_{1}^{2} } \over { n_{1} }} \right) \\ \overline{X}_{2} =& {{ 1 } \over { n_{2} }} \sum_{k=1}^{n_{2}} X_{2} \sim N \left( \mu_{2} , {{ \sigma_{2}^{2} } \over { n_{2} }} \right) \end{align*}

정규분포의 합: 확률 변수 X1,,XnX_{1} , \cdots , X_{n} 들이 상호 독립이라고 하자.

  • XiN(μi,σi2)X_i \sim N( \mu_{i}, \sigma_{i}^{2} ) 이면 주어진 벡터 (a1,,an)Rn(a_{1} , \cdots , a_{n}) \in \mathbb{R}^{n} 에 대해 i=1naiXiN(i=1naiμi,i=1nai2σi2) \displaystyle \sum_{i=1}^{n} a_{i} X_{i} \sim N \left( \sum_{i=1}^{n} a_{i } \mu_{i} , \sum_{i=1}^{n} a_{i }^2 \sigma_{i}^2 \right)

주어진 벡터 (a1,a2)=(1,1)R2\left( a_{1} , a_{2} \right) = (1, -1) \in \mathbb{R}^{2} 에 대해 X1X2=a1X1+a2X2N(i=12aiμi,i=12ai2σi2)N(μ1μ2,12σ2n1+(1)2σ2n2) \begin{align*} \overline{X}_{1} - \overline{X}_{2} =& a_{1} \overline{X}_{1} + a_{2} \overline{X}_{2} \\ \sim& N \left( \sum_{i=1}^{2} a_{i } \mu_{i} , \sum_{i=1}^{2} a_{i }^2 \sigma_{i}^2 \right) \\ \sim& N \left( \mu_{1} - \mu_{2} , 1^{2} \cdot {{ \sigma^{2} } \over { n_{1} }} + (-1)^{2} \cdot {{ \sigma^{2} } \over { n_{2} }} \right) \end{align*} 이므로 귀무가설 H0:μ1μ2=D0H_{0} : \mu_{1} - \mu_{2} = D_{0} 하에서 Z=(X1X2)D0σ12n1+σ22n2N(0,1) Z = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ {{ \sigma_{1}^{2} } \over { n_{1} }} + {{ \sigma_{2}^{2} } \over { n_{2} }} } }} \sim N \left( 0, 1 \right) 표준정규분포 N(0,1)N (0,1) 에 거의 근사한 분포를 따른다. 마찬가지로 대표본인 경우 sσs \approx \sigma 이므로 모분산을 모를 때는 σ\sigma 대신 ss 를 사용해도 무방하다. 확률변수 YY표준정규분포를 따른다고 할 때, 유의수준 α\alpha 에 대해 P(Yzα)=αP \left( Y \ge z_{\alpha} \right) = \alpha 를 만족시키는 zαz_{\alpha} 에 대해 H0H_{0} 가 기각된다는 것은 다음과 동치다. Zzα \left| Z \right| \ge z_{\alpha} 이는 귀무가설에 따라 μ1μ2=D0\mu_{1} - \mu_{2} = D_{0} 이라고 믿기엔 X1X2\overline{X}_{1} - \overline{X}_{2}D0D_{0} 에서 너무 멀리 떨어져있다는 의미가 된다.


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p363. ↩︎