logo

合同共分散の定義 📂数理統計学

合同共分散の定義

ビルドアップ

分布がX(μ,σ2)X \sim \left( \mu , \sigma^{2} \right)母集団から相互独立で引いたnn個のサンプルが実際にはmmつの母集団(μ1,σ12),,(μm,σm2)\left( \mu_{1} , \sigma_{1}^{2} \right), \cdots , \left( \mu_{m} , \sigma_{m}^{2} \right)からn1,,nmn_{1} , \cdots , n_{m}個ずつ引いたランダムサンプルを集めたものだとしよう。 {X1}n1iid(μ1,σ12){Xm}nmiid(μm,σm2) \begin{align*} \left\{ X_{1} \right\}_{n_{1}} \overset{\text{iid}}{\sim} & \left( \mu_{1} , \sigma_{1}^{2} \right) \\ \vdots & \\ \left\{ X_{m} \right\}_{n_{m}} \overset{\text{iid}}{\sim} & \left( \mu_{m} , \sigma_{m}^{2} \right) \end{align*} もちろん、全体のサンプル数はn=i=1mnin = \sum_{i=1}^{m} n_{i}だ。それぞれの母集団ではiidを前提として順番を考える意味がないので、XkX_{k}のようなkkインデックスを使えば、母集団全体を{Xk}k=1n(μ,σ2)\left\{ X_{k} \right\}_{k=1}^{n} \sim \left( \mu , \sigma^{2} \right)と見なし、iiインデックスを使えば、ii番目の集団の確率変数Xiiid(μi,σi2)X_{i} \overset{\text{iid}}{\sim} \left( \mu_{i} , \sigma_{i}^{2} \right)として表わそう。今、私たちは本来の大きな母集団の母平均μ\muσ2\sigma^{2}をそれぞれ母集団プール平均population pooled mean, 母集団プール分散population pooled varianceと呼ぶことにする。このポストの究極的な目的は単に「プール分散の定義」を見ることではなく、その不偏推定量である標本プール分散Sp2S_{p}^{2}を導出することである。意外にもインターネット上で正しく証明をしているところはないので、今すぐ必要ではなくても、ここで見ることができるという事実を覚えておこう。

母集団プール平均

まず、母集団プール平均と等分散がそれぞれの母平均と母分散で表現できるか先に見てみよう。平均と分散の定義に従って、母集団プール平均は nμ=n1μ+nmμ=k=1nEXk=i=1mniEXi=n1μ1+nmμm \begin{align*} n \mu =& n_{1} \mu + \cdots n_{m} \mu \\ =& \sum_{k=1}^{n} E X_{k} \\ =& \sum_{i=1}^{m} n_{i} E X_{i} \\ =& n_{1} \mu_{1} + \cdots n_{m} \mu_{m} \end{align*} を満たすので μ=n1μ1+nmμmn1++nm \mu = {{ n_{1} \mu_{1} + \cdots n_{m} \mu_{m} } \over { n_{1} + \cdots + n_{m} }} のように各集団の母平均がそのサンプルの数を重みとして持つ加重平均で表現される。

母集団プール分散

同様に、iidではないがXkX_{k}たちは相互に独立してサンプリングされたので、独立時の分散の線形性に従って nσ2=n1σ2+nmσ2=k=1nE(Xkμ)2=Ek=1n(Xkμ)2=Ei=1mniXi22Ei=1mniXiμi+i=1mniμi2=Ei=1mni(Xiμi)2=n1σ12+nmσm2 \begin{align*} n \sigma^{2} =& n_{1} \sigma^{2} + \cdots n_{m} \sigma^{2} \\ =& \sum_{k=1}^{n} E \left( X_{k} - \mu \right)^{2} \\ =& E \sum_{k=1}^{n} \left( X_{k} - \mu \right)^{2} \\ =& E \sum_{i=1}^{m} n_{i} X_{i}^{2} - 2 E \sum_{i=1}^{m} n_{i} X_{i} \mu_{i} + \sum_{i=1}^{m} n_{i} \mu_{i}^{2} \\ =& E \sum_{i=1}^{m} n_{i} \left( X_{i} - \mu_{i} \right)^{2} \\ =& n_{1} \sigma_{1}^{2} + \cdots n_{m} \sigma_{m}^{2} \end{align*} を満たすから σ=n1σ12+nmσm2n1++nm \sigma = {{ n_{1} \sigma_{1}^{2} + \cdots n_{m} \sigma_{m}^{2} } \over { n_{1} + \cdots + n_{m} }} のように各集団の母分散がそのサンプルの数を重みとして持つ加重平均で表現される。今、サンプルが等分散性homoscedasticityを持つ場合、つまり母平均だけが異なりσ=σ1==σm\sigma = \sigma_{1} = \cdots = \sigma_{m}を仮定できる場合、不偏推定量である標本プール分散Sp2S_{p}^{2}を見てみよう。

公式

標本プール分散

{X1}n1iid(μ1,σ2){Xm}nmiid(μm,σ2) \begin{align*} \left\{ X_{1} \right\}_{n_{1}} \overset{\text{iid}}{\sim} & \left( \mu_{1} , \sigma^{2} \right) \\ \vdots & \\ \left\{ X_{m} \right\}_{n_{m}} \overset{\text{iid}}{\sim} & \left( \mu_{m} , \sigma^{2} \right) \end{align*} 標本プール分散sample pooled varianceSp2S_{p}^{2}は、各標本分散S12,,Sm2S_{1}^{2} , \cdots , S_{m}^{2}がその自由度を重みとして持つ加重平均で表現される。 Sp2:=(n11)S12++(nm1)Sm2(n11)++(nm1)=i=1m(ni1)Si2i=1m(ni1) S_{p}^{2} := {{ \left( n_{1} - 1 \right) S_{1}^{2} + \cdots + \left( n_{m} - 1 \right) S_{m}^{2} } \over { \left( n_{1} - 1 \right) + \cdots + \left( n_{m} - 1 \right) }} = {{ \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} } \over { \sum_{i=1}^{m} \left( n_{i} - 1 \right) }} このように定義された標本プール分散Sp2S_{p}^{2}は母集団プール分散σ2\sigma^{2}不偏推定量である。 ESp2=σ2 E S_{p}^{2} = \sigma^{2}

導出

連立方程式 S12=1n11j=1n1(X1X1)2Sm2=1nm1j=1nm(XmXm)2 \begin{align*} S_{1}^{2} =& {{ 1 } \over { n_{1} - 1 }} \sum_{j=1}^{n_{1}} \left( X_{1} - \overline{X}_{1} \right)^{2} \\ & \vdots \\ S_{m}^{2} =& {{ 1 } \over { n_{m} - 1 }} \sum_{j=1}^{n_{m}} \left( X_{m} - \overline{X}_{m} \right)^{2} \end{align*} から次のことを得る。ここで、j=1,,nij = 1 , \cdots , n_{i}は単純にnin_{i}を繰り返すためのインデックスで、便宜上Xij1X_{ij_{1}}Xij2X_{ij_{2}}は別々に使わないが、これらが独立であることは覚えておかなければならない。 i=1m(ni1)Si2=i=1mj=1nm(XiXi)2=i=1mj=1nm[(Xiμi)+(μiXi)]2=i=1mj=1nm[(Xiμi)22(Xiμi)(Xiμi)+(Xiμi)2] \begin{align*} & \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \left( X_{i} - \overline{X}_{i} \right)^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \left[ \left( X_{i} - \mu_{i} \right) + \left( \mu_{i} - \overline{X}_{i} \right) \right]^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \left[ \left( X_{i} - \mu_{i} \right)^{2} - 2 \left( X_{i} - \mu_{i} \right) \left( \overline{X}_{i} - \mu_{i} \right) + \left( \overline{X}_{i} - \mu_{i} \right)^{2} \right] \end{align*}

今、両辺に期待値を取る前に、各項に対する期待値がどうなるか見てみよう。

共分散の性質: 平均がそれぞれμX\mu_{X}μY\mu_{Y}確率変数XXYYについて、Cov(X,Y):=E[(XμX)(YμY)]\operatorname{Cov} (X ,Y) : = E \left[ ( X - \mu_{X} ) ( Y - \mu_{Y} ) \right]XXYY共分散covarianceと定義する。共分散は以下の性質を持つ。

  • [1]: Var(X)=Cov(X,X)\operatorname{Var} (X) = \operatorname{Cov} (X,X)
  • [4]: Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)\operatorname{Cov} (X + Y , Z ) = \operatorname{Cov}(X,Z) + \operatorname{Cov}(Y,Z)
  • [5]: Cov(aX+b,cY+d)=acCov(X,Y)\operatorname{Cov} (aX + b , cY + d ) = ac \operatorname{Cov}(X,Y)

最初の項は明らかにE(Xiμi)2=σi2E \left( X_{i} - \mu_{i} \right)^{2} = \sigma_{i}^{2}だ。Xi=jXi/ni\overline{X}_{i} = \sum_{j} X_{i} / n_{i}iid、つまり独立に引かれたXij1Xij2X_{ij_{1}} \perp X_{ij_{2}}なので、特定のj0{1,,nm}j_{0} \in \left\{ 1, \cdots, n_{m} \right\}について E(Xiμi)(Xiμi)=Cov(Xi,Xi)=Cov(Xi,Xini)+jj0Cov(Xij,Xij0ni)=1niCov(Xi,Xi)+0=1niVarXi=1niσi2 \begin{align*} & E \left( X_{i} - \mu_{i} \right) \left( \overline{X}_{i} - \mu_{i} \right) \\ =& \operatorname{Cov} \left( X_{i} , \overline{X}_{i} \right) \\ =& \operatorname{Cov} \left( X_{i} , {{ {X}_{i} } \over { n_{i} }} \right) + \sum_{j \ne j_{0}} \operatorname{Cov} \left( X_{ij} , {{ {X}_{ij_{0}} } \over { n_{i} }} \right) \\ =& {{ 1 } \over { n_{i} }} \operatorname{Cov} \left( X_{i} , X_{i} \right) + 0 \\ =& {{ 1 } \over { n_{i} }} \operatorname{Var} X_{i} \\ =& {{ 1 } \over { n_{i} }} \sigma_{i}^{2} \end{align*} となり、標本平均の標準誤差の公式によって E(Xiμi)2=1niσi2 E \left( \overline{X}_{i} - \mu_{i} \right)^{2} = {{ 1 } \over { n_{i} }} \sigma_{i}^{2} したがって等分散性σ=σ1==σm\sigma = \sigma_{1} = \cdots = \sigma_{m}を仮定すると Ei=1m(ni1)Si2=i=1mj=1nmσi22i=1mj=1nm1niσi2+i=1mj=1nm1niσi2=nσ2i=1mσi2=nσ2mσ2=(nm)σ2=i=1m(ni1)σ2 \begin{align*} & E \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \sigma_{i}^{2} - 2 \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} {{ 1 } \over { n_{i} }} \sigma_{i}^{2} + \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} {{ 1 } \over { n_{i} }} \sigma_{i}^{2} \\ =& n \sigma^{2} - \sum_{i=1}^{m} \sigma_{i}^{2} \\ =& n \sigma^{2} - m \sigma^{2} \\ =& (n-m) \sigma^{2} \\ =& \sum_{i=1}^{m} \left( n_{i} - 1 \right) \sigma^{2} \end{align*} となり、最終的に次を得る。 ESp2=Ei=1m(ni1)Si2i=1m(ni1)=σ2 E S_{p}^{2} = E {{ \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} } \over { \sum_{i=1}^{m} \left( n_{i} - 1 \right) }} = \sigma^{2}