logo

두 모평균의 차에 대한 소표본 가설검정 📂통계적검정

두 모평균의 차에 대한 소표본 가설검정

가설검정 1

서로 독립인 두 모집단의 분포가 각각 정규분포 N(μ1,σ12)N \left( \mu_{1} , \sigma_{1}^{2} \right)N(μ2,σ22)N \left( \mu_{2} , \sigma_{2}^{2} \right) 를 따르며 σ12=σ2=σ22\sigma_{1}^{2} = \sigma^{2} = \sigma_{2}^{2}, 즉 각각의 모분산을 알 수는 없지만 서로 같다고는 가정하자. 표본이 소표본인 경우, 즉 표본의 수가 n1,n2<30n_{1} , n_{2} < 30 일 때 두 모평균의 차이에 대한 후보 D0D_{0} 에 대한 가설검정은 다음과 같다.

  • H0H_{0}: μ1μ2=D0\mu_{1} - \mu_{2} = D_{0} 다. 즉, 모평균의 차는 D0D_{0} 다.
  • H1H_{1}: μ1μ2=D0\mu_{1} - \mu_{2} = D_{0} 다. 즉, 모평균의 차는 D0D_{0} 이 아니다.

검정통계량

검정통계량표본표준편차 s1,s2s_{1}, s_{2} 를 써서 다음과 같다. t=(X1X2)D0sp2(1n1+1n2) t = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ s_{p}^{2} \left( {{ 1 } \over { n_{1} }} + {{ 1 } \over { n_{2} }} \right) } }} 여기서 sp2s_{p}^{2} 는 다음과 같이 계산되는 표본합동분산이다. sp2=(n11)s12+(n21)s22n1+n22 s_{p}^{2} = {{ \left( n_{1} - 1 \right) s_{1}^{2} + \left( n_{2} - 1 \right) s_{2}^{2} } \over { n_{1} + n_{2} - 2 }} 이 검정통계량은 t-분포를 따르는데, 그 자유도 df\mathrm{df}바닥함수 \lfloor \cdot \rfloor 에 대해 다음과 같이 계산된다. df=(s12n1+s22n2)2(s12/n1)2n11+(s22/n2)2n21 \mathrm{df} = \left\lfloor {{ \left( {{ s_{1}^{2} } \over { n_{1} }} + {{ s_{2}^{2} } \over { n_{2} }} \right)^{2} } \over { {{ \left( s_{1}^{2} / n_{1} \right)^{2} } \over { n_{1} - 1 }} + {{ \left( s_{2}^{2} / n_{2} \right)^{2} } \over { n_{2} - 1 }} }} \right\rfloor

유도

전략: 기본적으로 신입생은 물론 어느정도 짬이 찬 학부생 수준에서도 이해하기 어려우며, 석사 이상 정도 짬은 차야 직관적으로 받아들일 수 있다. 반대로 말해서 그정도 공부했으면 사실 보조정리 몇 개 나열하는 정도로 끝난다.


표본합동분산: 각 모분산을 알 수는 없지만 같다고 가정할 수 있을 때, 모분산에 대한 불편추정량은 다음과 같다. Sp2:=(n11)S12++(nm1)Sm2(n11)++(nm1)=i=1m(ni1)Si2i=1m(ni1) S_{p}^{2} := {{ \left( n_{1} - 1 \right) S_{1}^{2} + \cdots + \left( n_{m} - 1 \right) S_{m}^{2} } \over { \left( n_{1} - 1 \right) + \cdots + \left( n_{m} - 1 \right) }} = {{ \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} } \over { \sum_{i=1}^{m} \left( n_{i} - 1 \right) }}

새터스화이트 근사: k=1,,nk = 1, \cdots , n 에 대해 Ykχrk2Y_{k} \sim \chi_{r_{k}}^{2} 이고 akRa_{k} \in \mathbb{R} 이라고 하자. 만약 어떤 ν>0\nu > 0 에 대해 k=1nakYkχν2ν \sum_{k=1}^{n} a_{k} Y_{k} \sim {{ \chi_{\nu}^{2} } \over { \nu }} 라고 가정하면, 그 추정량으로써 다음의 ν^\hat{\nu} 를 사용할 수 있다. ν^=(kakYk)2kak2rkYk2 \hat{\nu} = {{ \left( \sum_{k} a_{k} Y_{k} \right)^{2} } \over { \sum_{k} {{ a_{k}^{2} } \over { r_{k} }} Y_{k}^{2} }}

독립인 정규 분포와 카이제곱 분포에서 스튜던트 t-분포 유도: 두 확률 변수 W,VW,V독립이고 WN(0,1)W \sim N(0,1), Vχ2(r)V \sim \chi^{2} (r) 이라 하면 T=WV/rt(r) T = { {W} \over {\sqrt{V/r} } } \sim t(r)

t=(X1X2)D0sp2(1n1+1n2)=(X1X2)D0σ/1n1+1n2dfsp2σ2/df t = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ s_{p}^{2} \left( {{ 1 } \over { n_{1} }} + {{ 1 } \over { n_{2} }} \right) } }} = {{ { \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \displaystyle \sigma / \sqrt{ {{ 1 } \over { n_{1} }} + {{ 1 } \over { n_{2} }} } } } \over { \sqrt{ \displaystyle {{ \textrm{df} s_{p}^{2} } \over { \sigma^{2} }} / \textrm{df} } }} 새터스화이트 근사에 따라 우변의 분모는 자유도 df\mathrm{df}카이제곱분포를 따르고 분자는 표준정규분포를 따르며, tt 는 근사적으로 자유도 df\mathrm{df}t-분포를 따른다. 확률변수 YYt-분포 t(df)t(\mathrm{df}) 을 따른다고 할 때, 유의수준 α\alpha 에 대해 P(Ytα)=αP \left( Y \ge t_{\alpha} \right) = \alpha 를 만족시키는 tαt_{\alpha} 에 대해 H0H_{0} 가 기각된다는 것은 다음과 동치다. ttα \left| t \right| \ge t_{\alpha} 이는 귀무가설에 따라 μ1μ2=D0\mu_{1} - \mu_{2} = D_{0} 이라고 믿기엔 X1X2\overline{X}_{1} - \overline{X}_{2}D0D_{0} 에서 너무 멀리 떨어져있다는 의미가 된다.


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p400. ↩︎