logo

새터스화이트 근사 📂수리통계학

새터스화이트 근사

빌드업

자유도가 rkr_{k}카이제곱분포를 따르는 독립적nn 개의 확률변수 Ykχrk2Y_{k} \sim \chi_{r_{k}}^{2} 가 주어져 있다고 하자. 널리 알려진대로, 이들의 합인 k=1nYk\sum_{k=1}^{n} Y_{k}자유도k=1nrk\sum_{k=1}^{n} r_{k}카이제곱분포를 따른다. 이러한 인사이트는 t-분포를 따르는 WV/r\displaystyle {{W} \over {\sqrt{V / r}}} 의 분모를 볼 때 유용하게 쓰일 수 있는데, 안타깝게도 풀드 샘플pooled sample, 그러니까 이질적인 모집단이 섞여있는 상황에서 그대로 적용하기 어렵다는 문제가 있다. 예컨대 그렇게 뽑힌 샘플들의 비율, 더 일반적으로 말해 가중치 a1,,anRa_{1} , \cdots , a_{n} \in \mathbb{R} 들이 주어져있다고 한다면 k=1nakYk \sum_{k=1}^{n} a_{k} Y_{k} 의 분포를 파악하는 것은 꽤 어려운 일이다. 일단 카이제곱분포는 따르는 것 같지만 구체적으로 그 자유도를 파악하기가 어려운 것이다. 이에 새터스화이트satterthwaiteakYk\sum a_{k} Y_{k} 가 카이제곱분포를 따른다는 가정 하에 상당히 괜찮은 통계량을 제안했다. 새터스화이트 근사의 대표적인 응용은 두 모평균의 차에 대한 소표본 가설검정이다.

공식

k=1,,nk = 1, \cdots , n 에 대해 Ykχrk2Y_{k} \sim \chi_{r_{k}}^{2} 이고 akRa_{k} \in \mathbb{R} 이라고 하자. 만약 어떤 ν>0\nu > 0 에 대해 k=1nakYkχν2ν \sum_{k=1}^{n} a_{k} Y_{k} \sim {{ \chi_{\nu}^{2} } \over { \nu }} 라고 가정하면, 그 추정량으로써 다음의 ν^\hat{\nu} 를 사용할 수 있다. ν^=(kakYk)2kak2rkYk2 \hat{\nu} = {{ \left( \sum_{k} a_{k} Y_{k} \right)^{2} } \over { \sum_{k} {{ a_{k}^{2} } \over { r_{k} }} Y_{k}^{2} }}

유도 1

모먼트 메소드

우선 모먼트 메소드로부터 시작한다.

k=1nakYkχν2ν \sum_{k=1}^{n} a_{k} Y_{k} \sim {{ \chi_{\nu}^{2} } \over { \nu }} 카이제곱분포 χν2\chi_{\nu}^{2} 의 모평균은 ν\nu 이므로 Ek=1nakYk=1 \begin{equation} E \sum_{k=1}^{n} a_{k} Y_{k} = 1 \label{1} \end{equation} 다. 한편 YkY_{k} 각각이 EYk=rkE Y_{k} = r_{k}E(χν2/ν)=1E \left( \chi_{\nu}^{2} / \nu \right) = 1 이므로 11차 적률에서 1=E(k=1nakYk)=k=1nakEYk=k=1nakrk \begin{align*} 1 =& E \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) \\ =& \sum_{k=1}^{n} a_{k} E Y_{k} \\ =& \sum_{k=1}^{n} a_{k} r_{k} \end{align*} 이다. χν2\chi_{\nu}^{2} 의 평균은 ν\nu, 분산은 2ν2\nu 이므로 22차 적률에서 E[(k=1nakYk)2]=E[(χν2ν)2]=1ν2E[(χν2)2]=1ν2[2ν+ν2]=2ν+1 \begin{align*} E \left[ \left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} \right] =& E \left[ \left( {{ \chi_{\nu}^{2} } \over { \nu }} \right)^{2} \right] \\ =& {{ 1 } \over { \nu^{2} }} E \left[ \left( \chi_{\nu}^{2} \right)^{2} \right] \\ =& {{ 1 } \over { \nu^{2} }} \left[ 2\nu + \nu^{2} \right] \\ =& {{ 2 } \over { \nu }} + 1 \end{align*} 이다. 이를 ν\nu 에 대해서 정리하면 다음의 추정량을 얻을 수 있다. ν^=2(k=1nakYk)21 \hat{\nu} = {{ 2 } \over { \left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} - 1 }} 이는 꽤 괜찮은 추정량이지만, 분모를 보면 (k=1nakYk)2\left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2}11 에 가까워질 때 발산하거나 심지어 음수가 될 수도 있다는 위험성을 알 수 있다. 이를 극복하기 위해 (k=1nakYk)2\left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} 에 대해 더 파고들어보자.

보정

(1)\eqref{1} 에서 Ek=1nakYk=1E \sum_{k=1}^{n} a_{k} Y_{k} = 1 이었으므로, 분산의 성질 EZ2=VarZ+(EZ)2E Z^{2} = \operatorname{Var} Z + (EZ)^{2}에 따라 =2ν+1E[(k=1nakYk)2]=Var(k=1nakYk)+(Ek=1nakYk)2=(Ek=1nakYk)2[Var(k=1nakYk)(Ek=1nakYk)2+1]=12[Var(k=1nakYk)(Ek=1nakYk)2+1] \begin{align*} =& {{ 2 } \over { \nu }} + 1 \\ E \left[ \left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} \right] =& \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) + \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} \\ =& \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} \left[ {{ \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) } \over { \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} }} + 1 \right] \\ =& 1^{2} \cdot \left[ {{ \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) } \over { \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} }} + 1 \right] \end{align*} 이렇게 얻은 2ν+1=Var(k=1nakYk)(Ek=1nakYk)2+1 {{ 2 } \over { \nu }} + 1 = {{ \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) } \over { \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} }} + 1 ν\nu 에 대해 정리하면 ν=2(Ek=1nakYk)2Var(k=1nakYk) \nu = {{ 2 \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} } \over { \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) }} 이다. 분모의 Var(k=1nakYk)\operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) 를 직접 계산해보면 VarYk=2(EYk)2/rk\operatorname{Var} Y_{k} = 2 \left( E Y_{k} \right)^{2} / r_{k} 이므로 Var(k=1nakYk)=k=1nak2VarYk=k=1nak22(EYk)2rk=2k=1nak2(EYk)2rk \begin{align*} \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) =& \sum_{k=1}^{n} a_{k}^{2} \operatorname{Var} Y_{k} \\ =& \sum_{k=1}^{n} a_{k}^{2} {{ 2 \left( E Y_{k} \right)^{2} } \over { r_{k} }} \\ =& 2 \sum_{k=1}^{n} a_{k}^{2} {{ \left( E Y_{k} \right)^{2} } \over { r_{k} }} \end{align*} 다. 이를 그대로 대입해보면 22 가 약분되어서 다음의 추정량을 얻는다. ν^=(k=1nakYk)2k=1nak2(Yk)2rk \hat{\nu} = {{ \left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} } \over { \sum_{k=1}^{n} a_{k}^{2} {{ \left( Y_{k} \right)^{2} } \over { r_{k} }}}}


  1. Casella. (2001). Statistical Inference(2nd Edition): p314. ↩︎