合同共分散の定義
📂数理統計学合同共分散の定義
ビルドアップ
分布がX∼(μ,σ2)の母集団から相互独立で引いたn個のサンプルが実際にはmつの母集団(μ1,σ12),⋯,(μm,σm2)からn1,⋯,nm個ずつ引いたランダムサンプルを集めたものだとしよう。
{X1}n1∼iid⋮{Xm}nm∼iid(μ1,σ12)(μm,σm2)
もちろん、全体のサンプル数はn=∑i=1mniだ。それぞれの母集団ではiidを前提として順番を考える意味がないので、Xkのようなkインデックスを使えば、母集団全体を{Xk}k=1n∼(μ,σ2)と見なし、iインデックスを使えば、i番目の集団の確率変数Xi∼iid(μi,σi2)として表わそう。今、私たちは本来の大きな母集団の母平均μとσ2をそれぞれ母集団プール平均population pooled mean, 母集団プール分散population pooled varianceと呼ぶことにする。このポストの究極的な目的は単に「プール分散の定義」を見ることではなく、その不偏推定量である標本プール分散Sp2を導出することである。意外にもインターネット上で正しく証明をしているところはないので、今すぐ必要ではなくても、ここで見ることができるという事実を覚えておこう。
母集団プール平均
まず、母集団プール平均と等分散がそれぞれの母平均と母分散で表現できるか先に見てみよう。平均と分散の定義に従って、母集団プール平均は
nμ====n1μ+⋯nmμk=1∑nEXki=1∑mniEXin1μ1+⋯nmμm
を満たすので
μ=n1+⋯+nmn1μ1+⋯nmμm
のように各集団の母平均がそのサンプルの数を重みとして持つ加重平均で表現される。
母集団プール分散
同様に、iidではないがXkたちは相互に独立してサンプリングされたので、独立時の分散の線形性に従って
nσ2======n1σ2+⋯nmσ2k=1∑nE(Xk−μ)2Ek=1∑n(Xk−μ)2Ei=1∑mniXi2−2Ei=1∑mniXiμi+i=1∑mniμi2Ei=1∑mni(Xi−μi)2n1σ12+⋯nmσm2
を満たすから
σ=n1+⋯+nmn1σ12+⋯nmσm2
のように各集団の母分散がそのサンプルの数を重みとして持つ加重平均で表現される。今、サンプルが等分散性homoscedasticityを持つ場合、つまり母平均だけが異なりσ=σ1=⋯=σmを仮定できる場合、不偏推定量である標本プール分散Sp2を見てみよう。
公式
標本プール分散
{X1}n1∼iid⋮{Xm}nm∼iid(μ1,σ2)(μm,σ2)
標本プール分散sample pooled varianceSp2は、各標本分散S12,⋯,Sm2がその自由度を重みとして持つ加重平均で表現される。
Sp2:=(n1−1)+⋯+(nm−1)(n1−1)S12+⋯+(nm−1)Sm2=∑i=1m(ni−1)∑i=1m(ni−1)Si2
このように定義された標本プール分散Sp2は母集団プール分散σ2の不偏推定量である。
ESp2=σ2
導出
連立方程式
S12=Sm2=n1−11j=1∑n1(X1−X1)2⋮nm−11j=1∑nm(Xm−Xm)2
から次のことを得る。ここで、j=1,⋯,niは単純にniを繰り返すためのインデックスで、便宜上Xij1とXij2は別々に使わないが、これらが独立であることは覚えておかなければならない。
===i=1∑m(ni−1)Si2i=1∑mj=1∑nm(Xi−Xi)2i=1∑mj=1∑nm[(Xi−μi)+(μi−Xi)]2i=1∑mj=1∑nm[(Xi−μi)2−2(Xi−μi)(Xi−μi)+(Xi−μi)2]
今、両辺に期待値を取る前に、各項に対する期待値がどうなるか見てみよう。
共分散の性質: 平均がそれぞれμX、μYの確率変数X、Yについて、Cov(X,Y):=E[(X−μX)(Y−μY)]をXとYの共分散covarianceと定義する。共分散は以下の性質を持つ。
- [1]: Var(X)=Cov(X,X)
- [4]: Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)
- [5]: Cov(aX+b,cY+d)=acCov(X,Y)
最初の項は明らかにE(Xi−μi)2=σi2だ。Xi=∑jXi/niでiid、つまり独立に引かれたXij1⊥Xij2なので、特定のj0∈{1,⋯,nm}について
=====E(Xi−μi)(Xi−μi)Cov(Xi,Xi)Cov(Xi,niXi)+j=j0∑Cov(Xij,niXij0)ni1Cov(Xi,Xi)+0ni1VarXini1σi2
となり、標本平均の標準誤差の公式によって
E(Xi−μi)2=ni1σi2
したがって等分散性σ=σ1=⋯=σmを仮定すると
=====Ei=1∑m(ni−1)Si2i=1∑mj=1∑nmσi2−2i=1∑mj=1∑nmni1σi2+i=1∑mj=1∑nmni1σi2nσ2−i=1∑mσi2nσ2−mσ2(n−m)σ2i=1∑m(ni−1)σ2
となり、最終的に次を得る。
ESp2=E∑i=1m(ni−1)∑i=1m(ni−1)Si2=σ2
■