서로 독립인 두 모집단의 분포가 각각 정규분포N(μ1,σ12) 과 N(μ2,σ22) 를 따르며 σ12=σ2=σ22, 즉 각각의 모분산을 알 수는 없지만 서로 같다고는 가정하자. 표본이 소표본인 경우, 즉 표본의 수가 n1,n2<30 일 때 두 모평균의 차이에 대한 후보 D0 에 대한 가설검정은 다음과 같다.
H0: μ1−μ2=D0 다. 즉, 모평균의 차는 D0 다.
H1: μ1−μ2=D0 다. 즉, 모평균의 차는 D0 이 아니다.
검정통계량
검정통계량은 표본표준편차s1,s2 를 써서 다음과 같다.
t=sp2(n11+n21)(X1−X2)−D0
여기서 sp2 는 다음과 같이 계산되는 표본합동분산이다.
sp2=n1+n2−2(n1−1)s12+(n2−1)s22
이 검정통계량은 t-분포를 따르는데, 그 자유도 df 는 바닥함수⌊⋅⌋ 에 대해 다음과 같이 계산된다.
df=n1−1(s12/n1)2+n2−1(s22/n2)2(n1s12+n2s22)2
유도
전략: 기본적으로 신입생은 물론 어느정도 짬이 찬 학부생 수준에서도 이해하기 어려우며, 석사 이상 정도 짬은 차야 직관적으로 받아들일 수 있다. 반대로 말해서 그정도 공부했으면 사실 보조정리 몇 개 나열하는 정도로 끝난다.
표본합동분산: 각 모분산을 알 수는 없지만 같다고 가정할 수 있을 때, 모분산에 대한 불편추정량은 다음과 같다.
Sp2:=(n1−1)+⋯+(nm−1)(n1−1)S12+⋯+(nm−1)Sm2=∑i=1m(ni−1)∑i=1m(ni−1)Si2
새터스화이트 근사: k=1,⋯,n 에 대해 Yk∼χrk2 이고 ak∈R 이라고 하자. 만약 어떤 ν>0 에 대해
k=1∑nakYk∼νχν2
라고 가정하면, 그 추정량으로써 다음의 ν^ 를 사용할 수 있다.
ν^=∑krkak2Yk2(∑kakYk)2
t=sp2(n11+n21)(X1−X2)−D0=σ2dfsp2/dfσ/n11+n21(X1−X2)−D0
새터스화이트 근사에 따라 우변의 분모는 자유도 df 의 카이제곱분포를 따르고 분자는 표준정규분포를 따르며, t 는 근사적으로 자유도df 의 t-분포를 따른다. 확률변수Y 가 t-분포t(df) 을 따른다고 할 때, 유의수준α 에 대해 P(Y≥tα)=α 를 만족시키는 tα 에 대해 H0 가 기각된다는 것은 다음과 동치다.
∣t∣≥tα
이는 귀무가설에 따라 μ1−μ2=D0 이라고 믿기엔 X1−X2 이 D0 에서 너무 멀리 떨어져있다는 의미가 된다.
■
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p400. ↩︎