サタスウェイトの近似
ビルドアップ
自由度が$r_{k}$のカイ二乗分布に従う独立した$n$個の確率変数$Y_{k} \sim \chi_{r_{k}}^{2}$があるとしよう。よく知られているように、これらの和$\sum_{k=1}^{n} Y_{k}$は自由度が$\sum_{k=1}^{n} r_{k}$のカイ二乗分布に従う。この洞察はt-分布に従う$\displaystyle {{W} \over {\sqrt{V / r}}}$の分母を見るときに、特に役立つが、残念ながら、プールドサンプル、つまり異質な母集団が混ざっている場合にそのまま適応するのは難しい。例えば、そうして選ばれたサンプルたちの比率、もっと一般的には重み$a_{1} , \cdots , a_{n} \in \mathbb{R}$が与えられている場合、 $$ \sum_{k=1}^{n} a_{k} Y_{k} $$ の分布を把握するのはかなり難しい。カイ二乗分布に従っているようだが、その自由度を具体的に知るのが難しいのだ。これに対し、サタースウェイトsatterthwaiteは$\sum a_{k} Y_{k}$がカイ二乗分布に従うという仮定の下、かなりまともな統計量を提案した。サタースウェイト近似の代表的な応用は小標本での二つの母平均の差に関する仮説検定である。
式
$k = 1, \cdots , n$について$Y_{k} \sim \chi_{r_{k}}^{2}$であり、$a_{k} \in \mathbb{R}$とする。ある$\nu > 0$に対して $$ \sum_{k=1}^{n} a_{k} Y_{k} \sim {{ \chi_{\nu}^{2} } \over { \nu }} $$ と仮定すると、以下の$\hat{\nu}$を推定量として使用することができる。 $$ \hat{\nu} = {{ \left( \sum_{k} a_{k} Y_{k} \right)^{2} } \over { \sum_{k} {{ a_{k}^{2} } \over { r_{k} }} Y_{k}^{2} }} $$
導出1
モーメント法
まずモーメント法から始める。
$$ \sum_{k=1}^{n} a_{k} Y_{k} \sim {{ \chi_{\nu}^{2} } \over { \nu }} $$ カイ二乗分布$\chi_{\nu}^{2}$の平均が $\nu$ なので $$ \begin{equation} E \sum_{k=1}^{n} a_{k} Y_{k} = 1 \label{1} \end{equation} $$ である。一方で$Y_{k}$はそれぞれ$E Y_{k} = r_{k}$であり、$E \left( \chi_{\nu}^{2} / \nu \right) = 1$なので$1$次のモーメントから $$ \begin{align*} 1 =& E \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) \\ =& \sum_{k=1}^{n} a_{k} E Y_{k} \\ =& \sum_{k=1}^{n} a_{k} r_{k} \end{align*} $$ である。$\chi_{\nu}^{2}$の平均は$\nu$で、分散は$2\nu$なので$2$次のモーメントから $$ \begin{align*} E \left[ \left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} \right] =& E \left[ \left( {{ \chi_{\nu}^{2} } \over { \nu }} \right)^{2} \right] \\ =& {{ 1 } \over { \nu^{2} }} E \left[ \left( \chi_{\nu}^{2} \right)^{2} \right] \\ =& {{ 1 } \over { \nu^{2} }} \left[ 2\nu + \nu^{2} \right] \\ =& {{ 2 } \over { \nu }} + 1 \end{align*} $$ である。これを$\nu$に関して整理すると、次の推定量が得られる。 $$ \hat{\nu} = {{ 2 } \over { \left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} - 1 }} $$ これはかなりまともな推定量だが、分母が$\left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2}$が$1$に近づくときに発散したり、さらには負になる可能性があるというリスクがある。このリスクを克服するために、$\left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2}$をもう少し掘り下げてみよう。
補正
$\eqref{1}$から$E \sum_{k=1}^{n} a_{k} Y_{k} = 1$だったので、分散の性質$E Z^{2} = \operatorname{Var} Z + (EZ)^{2}$に従って $$ \begin{align*} =& {{ 2 } \over { \nu }} + 1 \\ E \left[ \left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} \right] =& \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) + \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} \\ =& \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} \left[ {{ \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) } \over { \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} }} + 1 \right] \\ =& 1^{2} \cdot \left[ {{ \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) } \over { \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} }} + 1 \right] \end{align*} $$ このように得た $$ {{ 2 } \over { \nu }} + 1 = {{ \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) } \over { \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} }} + 1 $$ を$\nu$に関して整理すると $$ \nu = {{ 2 \left( E \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} } \over { \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) }} $$ である。分母の$\operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right)$を直接計算すると$\operatorname{Var} Y_{k} = 2 \left( E Y_{k} \right)^{2} / r_{k}$なので $$ \begin{align*} \operatorname{Var} \left( \sum_{k=1}^{n} a_{k} Y_{k} \right) =& \sum_{k=1}^{n} a_{k}^{2} \operatorname{Var} Y_{k} \\ =& \sum_{k=1}^{n} a_{k}^{2} {{ 2 \left( E Y_{k} \right)^{2} } \over { r_{k} }} \\ =& 2 \sum_{k=1}^{n} a_{k}^{2} {{ \left( E Y_{k} \right)^{2} } \over { r_{k} }} \end{align*} $$ である。これをそのまま代入すると$2$が約分され、次の推定量が得られる。 $$ \hat{\nu} = {{ \left( \sum_{k=1}^{n} a_{k} Y_{k} \right)^{2} } \over { \sum_{k=1}^{n} a_{k}^{2} {{ \left( Y_{k} \right)^{2} } \over { r_{k} }}}} $$
■
Casella. (2001). Statistical Inference(2nd Edition): p314. ↩︎