자유도가 rk 인 카이제곱분포를 따르는 독립적인 n 개의 확률변수Yk∼χrk2 가 주어져 있다고 하자. 널리 알려진대로, 이들의 합인 ∑k=1nYk 는 자유도가 ∑k=1nrk 인 카이제곱분포를 따른다. 이러한 인사이트는 t-분포를 따르는 V/rW 의 분모를 볼 때 유용하게 쓰일 수 있는데, 안타깝게도 풀드 샘플pooled sample, 그러니까 이질적인 모집단이 섞여있는 상황에서 그대로 적용하기 어렵다는 문제가 있다. 예컨대 그렇게 뽑힌 샘플들의 비율, 더 일반적으로 말해 가중치 a1,⋯,an∈R 들이 주어져있다고 한다면
k=1∑nakYk
의 분포를 파악하는 것은 꽤 어려운 일이다. 일단 카이제곱분포는 따르는 것 같지만 구체적으로 그 자유도를 파악하기가 어려운 것이다. 이에 새터스화이트satterthwaite는 ∑akYk 가 카이제곱분포를 따른다는 가정 하에 상당히 괜찮은 통계량을 제안했다. 새터스화이트 근사의 대표적인 응용은 두 모평균의 차에 대한 소표본 가설검정이다.
공식
k=1,⋯,n 에 대해 Yk∼χrk2 이고 ak∈R 이라고 하자. 만약 어떤 ν>0 에 대해
k=1∑nakYk∼νχν2
라고 가정하면, 그 추정량으로써 다음의 ν^ 를 사용할 수 있다.
ν^=∑krkak2Yk2(∑kakYk)2
k=1∑nakYk∼νχν2
카이제곱분포 χν2 의 모평균은 ν 이므로
Ek=1∑nakYk=1
다. 한편 Yk 각각이 EYk=rk 고 E(χν2/ν)=1 이므로 1차 적률에서
1===E(k=1∑nakYk)k=1∑nakEYkk=1∑nakrk
이다. χν2 의 평균은 ν, 분산은 2ν 이므로 2차 적률에서
E(k=1∑nakYk)2====E[(νχν2)2]ν21E[(χν2)2]ν21[2ν+ν2]ν2+1
이다. 이를 ν 에 대해서 정리하면 다음의 추정량을 얻을 수 있다.
ν^=(∑k=1nakYk)2−12
이는 꽤 괜찮은 추정량이지만, 분모를 보면 (∑k=1nakYk)2 이 1 에 가까워질 때 발산하거나 심지어 음수가 될 수도 있다는 위험성을 알 수 있다. 이를 극복하기 위해 (∑k=1nakYk)2 에 대해 더 파고들어보자.
보정
(1) 에서 E∑k=1nakYk=1 이었으므로, 분산의 성질 EZ2=VarZ+(EZ)2에 따라
=E(k=1∑nakYk)2===ν2+1Var(k=1∑nakYk)+(Ek=1∑nakYk)2(Ek=1∑nakYk)2[(E∑k=1nakYk)2Var(∑k=1nakYk)+1]12⋅[(E∑k=1nakYk)2Var(∑k=1nakYk)+1]
이렇게 얻은
ν2+1=(E∑k=1nakYk)2Var(∑k=1nakYk)+1
를 ν 에 대해 정리하면
ν=Var(∑k=1nakYk)2(E∑k=1nakYk)2
이다. 분모의 Var(∑k=1nakYk) 를 직접 계산해보면 VarYk=2(EYk)2/rk 이므로
Var(k=1∑nakYk)===k=1∑nak2VarYkk=1∑nak2rk2(EYk)22k=1∑nak2rk(EYk)2
다. 이를 그대로 대입해보면 2 가 약분되어서 다음의 추정량을 얻는다.
ν^=∑k=1nak2rk(Yk)2(∑k=1nakYk)2