새터스화이트 근사
빌드업
자유도가 $r_{k}$ 인 카이제곱분포를 따르는 독립적인 $n$ 개의 확률변수 $Y_{k} \sim \chi_{r_{k}}^{2}$ 가 주어져 있다고 하자. 널리 알려진대로, 이들의 합인 $\sum_{k=1}^{n} Y_{k}$ 는 자유도가 $\sum_{k=1}^{n} r_{k}$ 인 카이제곱분포를 따른다. 이러한 인사이트는 t-분포를 따르는 $\displaystyle {{W} \over {\sqrt{V / r}}}$ 의 분모를 볼 때 유용하게 쓰일 수 있는데, 안타깝게도 풀드 샘플pooled Sample, 그러니까 이질적인 모집단이 섞여있는 상황에서 그대로 적용하기 어렵다는 문제가 있다. 예컨대 그렇게 뽑힌 샘플들의 비율, 더 일반적으로 말해 가중치 $a_{1} , \cdots , a_{n} \in \mathbb{R}$ 들이 주어져있다고 한다면 $$ \sum_{k=1}^{n} a_{k} Y_{k} $$ 의 분포를 파악하는 것은 꽤 어려운 일이다. 일단 카이제곱분포는 따르는 것 같지만 구체적으로 그 자유도를 파악하기가 어려운 것이다. 이에 새터스화이트satterthwaite는 $\sum a_{k} Y_{k}$ 가 카이제곱분포를 따른다는 가정 하에 상당히 괜찮은 통계량을 제안했다. 새터스화이트 근사의 대표적인 응용은 두 모평균의 차에 대한 소표본 가설검정이다.
공식
$k = 1, \cdots , n$ 에 대해 $Y_{k} \sim \chi_{r_{k}}^{2}$ 이고 $a_{k} \in \mathbb{R}$ 이라고 하자. 만약 어떤 $\nu > 0$ 에 대해 $$ \sum_{k=1}^{n} a_{k} Y_{k} \sim {{ \chi_{\nu}^{2} } \over { \nu }} $$ 라고 가정하면, 그 추정량으로써 다음의 $\hat{\nu}$ 를 사용할 수 있다. $$ \hat{\nu} = {{ \left( \sum_{k} a_{k} Y_{k} \right)^{2} } \over { \sum_{k} {{ a_{k}^{2} } \over { r_{k} }} Y_{k}^{2} }} $$
유도 1
모먼트 메소드
우선 모먼트 메소드로부터 시작한다.
$$ \sum_{k=1}^{n} a_{k} Y_{k} \sim {{ \chi_{\nu}^{2} } \over { \nu }} $$ 카이제곱분포 $\chi_{\nu}^{2}$ 의 모평균은 $\nu$ 이므로 $$ \begin{equation} E \sum_{k=1}^{n} a_{k} Y_{k} = 1 \label{1} \end{equation} $$ 다. 한편 $Y_{k}$ 각각이 $E Y_{k} = r_{k}$ 고 $E \left( \chi_{\nu}^{2} / \nu \right) = 1$ 이므로 $1$차 적률에서 $$ \begin{align*} 1 =& E \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) \\ =& \sum_{k=1}^{n} a_{k} E Y_{k} \\ =& \sum_{k=1}^{n} a_{k} r_{k} \end{align*} $$ 이다. $\chi_{\nu}^{2}$ 의 평균은 $\nu$, 분산은 $2\nu$ 이므로 $2$차 적률에서 $$ \begin{align*} E \left[ \left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} \right] =& E \left[ \left( {{ \chi_{\nu}^{2} } \over { \nu }} \right)^{2} \right] \\ =& {{ 1 } \over { \nu^{2} }} E \left[ \left( \chi_{\nu}^{2} \right)^{2} \right] \\ =& {{ 1 } \over { \nu^{2} }} \left[ 2\nu + \nu^{2} \right] \\ =& {{ 2 } \over { \nu }} + 1 \end{align*} $$ 이다. 이를 $\nu$ 에 대해서 정리하면 다음의 추정량을 얻을 수 있다. $$ \hat{\nu} = {{ 2 } \over { \left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} - 1 }} $$ 이는 꽤 괜찮은 추정량이지만, 분모를 보면 $\left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2}$ 이 $1$ 에 가까워질 때 발산하거나 심지어 음수가 될 수도 있다는 위험성을 알 수 있다. 이를 극복하기 위해 $\left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2}$ 에 대해 더 파고들어보자.
보정
$\eqref{1}$ 에서 $E \sum_{k=1}^{n} a_{k} Y_{k} = 1$ 이었으므로, 분산의 성질 $E Z^{2} = \operatorname{Var} Z + (EZ)^{2}$에 따라 $$ \begin{align*} =& {{ 2 } \over { \nu }} + 1 \\ E \left[ \left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} \right] =& \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) + \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} \\ =& \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} \left[ {{ \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) } \over { \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} }} + 1 \right] \\ =& 1^{2} \cdot \left[ {{ \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) } \over { \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} }} + 1 \right] \end{align*} $$ 이렇게 얻은 $$ {{ 2 } \over { \nu }} + 1 = {{ \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) } \over { \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} }} + 1 $$ 를 $\nu$ 에 대해 정리하면 $$ \nu = {{ 2 \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} } \over { \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) }} $$ 이다. 분모의 $\operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right)$ 를 직접 계산해보면 $\operatorname{Var} Y_{k} = 2 \left( E Y_{k} \right)^{2} / r_{k}$ 이므로 $$ \begin{align*} \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) =& \sum_{k=1}^{n} a_{k}^{2} \operatorname{Var} Y_{k} \\ =& \sum_{k=1}^{n} a_{k}^{2} {{ 2 \left( E Y_{k} \right)^{2} } \over { r_{k} }} \\ =& 2 \sum_{k=1}^{n} a_{k}^{2} {{ \left( E Y_{k} \right)^{2} } \over { r_{k} }} \end{align*} $$ 다. 이를 그대로 대입해보면 $2$ 가 약분되어서 다음의 추정량을 얻는다. $$ \hat{\nu} = {{ \left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} } \over { \sum_{k=1}^{n} a_{k}^{2} {{ \left( Y_{k} \right)^{2} } \over { r_{k} }}}} $$
■
Casella. (2001). Statistical Inference(2nd Edition): p314. ↩︎