サタスウェイトの近似
📂数理統計学サタスウェイトの近似
ビルドアップ
自由度がrkのカイ二乗分布に従う独立したn個の確率変数Yk∼χrk2があるとしよう。よく知られているように、これらの和∑k=1nYkは自由度が∑k=1nrkのカイ二乗分布に従う。この洞察はt-分布に従うV/rWの分母を見るときに、特に役立つが、残念ながら、プールドサンプル、つまり異質な母集団が混ざっている場合にそのまま適応するのは難しい。例えば、そうして選ばれたサンプルたちの比率、もっと一般的には重みa1,⋯,an∈Rが与えられている場合、
k=1∑nakYk
の分布を把握するのはかなり難しい。カイ二乗分布に従っているようだが、その自由度を具体的に知るのが難しいのだ。これに対し、サタースウェイトsatterthwaiteは∑akYkがカイ二乗分布に従うという仮定の下、かなりまともな統計量を提案した。サタースウェイト近似の代表的な応用は小標本での二つの母平均の差に関する仮説検定である。
式
k=1,⋯,nについてYk∼χrk2であり、ak∈Rとする。あるν>0に対して
k=1∑nakYk∼νχν2
と仮定すると、以下のν^を推定量として使用することができる。
ν^=∑krkak2Yk2(∑kakYk)2
導出
モーメント法
まずモーメント法から始める。
k=1∑nakYk∼νχν2
カイ二乗分布χν2の平均が ν なので
Ek=1∑nakYk=1
である。一方でYkはそれぞれEYk=rkであり、E(χν2/ν)=1なので1次のモーメントから
1===E(k=1∑nakYk)k=1∑nakEYkk=1∑nakrk
である。χν2の平均はνで、分散は2νなので2次のモーメントから
E(k=1∑nakYk)2====E[(νχν2)2]ν21E[(χν2)2]ν21[2ν+ν2]ν2+1
である。これをνに関して整理すると、次の推定量が得られる。
ν^=(∑k=1nakYk)2−12
これはかなりまともな推定量だが、分母が(∑k=1nakYk)2が1に近づくときに発散したり、さらには負になる可能性があるというリスクがある。このリスクを克服するために、(∑k=1nakYk)2をもう少し掘り下げてみよう。
補正
(1)からE∑k=1nakYk=1だったので、分散の性質EZ2=VarZ+(EZ)2に従って
=E(k=1∑nakYk)2===ν2+1Var(k=1∑nakYk)+(Ek=1∑nakYk)2(Ek=1∑nakYk)2[(E∑k=1nakYk)2Var(∑k=1nakYk)+1]12⋅[(E∑k=1nakYk)2Var(∑k=1nakYk)+1]
このように得た
ν2+1=(E∑k=1nakYk)2Var(∑k=1nakYk)+1
をνに関して整理すると
ν=Var(∑k=1nakYk)2(E∑k=1nakYk)2
である。分母のVar(∑k=1nakYk)を直接計算するとVarYk=2(EYk)2/rkなので
Var(k=1∑nakYk)===k=1∑nak2VarYkk=1∑nak2rk2(EYk)22k=1∑nak2rk(EYk)2
である。これをそのまま代入すると2が約分され、次の推定量が得られる。
ν^=∑k=1nak2rk(Yk)2(∑k=1nakYk)2
■