合同共分散の定義

ビルドアップ

分布が$X \sim \left( \mu , \sigma^{2} \right)$の母集団から相互独立で引いた$n$個のサンプルが実際には$m$つの母集団$\left( \mu_{1} , \sigma_{1}^{2} \right), \cdots , \left( \mu_{m} , \sigma_{m}^{2} \right)$から$n_{1} , \cdots , n_{m}$個ずつ引いたランダムサンプルを集めたものだとしよう。 $$ \begin{align*} \left\{ X_{1} \right\}_{n_{1}} \overset{\text{iid}}{\sim} & \left( \mu_{1} , \sigma_{1}^{2} \right) \\ \vdots & \\ \left\{ X_{m} \right\}_{n_{m}} \overset{\text{iid}}{\sim} & \left( \mu_{m} , \sigma_{m}^{2} \right) \end{align*} $$ もちろん、全体のサンプル数は$n = \sum_{i=1}^{m} n_{i}$だ。それぞれの母集団ではiidを前提として順番を考える意味がないので、$X_{k}$のような$k$インデックスを使えば、母集団全体を$\left\{ X_{k} \right\}_{k=1}^{n} \sim \left( \mu , \sigma^{2} \right)$と見なし、$i$インデックスを使えば、$i$番目の集団の確率変数$X_{i} \overset{\text{iid}}{\sim} \left( \mu_{i} , \sigma_{i}^{2} \right)$として表わそう。今、私たちは本来の大きな母集団の母平均$\mu$と$\sigma^{2}$をそれぞれ母集団プール平均^{population pooled mean}, 母集団プール分散^{population pooled variance}と呼ぶことにする。このポストの究極的な目的は単に「プール分散の定義」を見ることではなく、その不偏推定量である標本プール分散$S_{p}^{2}$を導出することである。意外にもインターネット上で正しく証明をしているところはないので、今すぐ必要ではなくても、ここで見ることができるという事実を覚えておこう。

母集団プール平均

まず、母集団プール平均と等分散がそれぞれの母平均と母分散で表現できるか先に見てみよう。平均と分散の定義に従って、母集団プール平均は $$ \begin{align*} n \mu =& n_{1} \mu + \cdots n_{m} \mu \\ =& \sum_{k=1}^{n} E X_{k} \\ =& \sum_{i=1}^{m} n_{i} E X_{i} \\ =& n_{1} \mu_{1} + \cdots n_{m} \mu_{m} \end{align*} $$ を満たすので $$ \mu = {{ n_{1} \mu_{1} + \cdots n_{m} \mu_{m} } \over { n_{1} + \cdots + n_{m} }} $$ のように各集団の母平均がそのサンプルの数を重みとして持つ加重平均で表現される。

母集団プール分散

同様に、iidではないが$X_{k}$たちは相互に独立してサンプリングされたので、独立時の分散の線形性に従って $$ \begin{align*} n \sigma^{2} =& n_{1} \sigma^{2} + \cdots n_{m} \sigma^{2} \\ =& \sum_{k=1}^{n} E \left( X_{k} - \mu \right)^{2} \\ =& E \sum_{k=1}^{n} \left( X_{k} - \mu \right)^{2} \\ =& E \sum_{i=1}^{m} n_{i} X_{i}^{2} - 2 E \sum_{i=1}^{m} n_{i} X_{i} \mu_{i} + \sum_{i=1}^{m} n_{i} \mu_{i}^{2} \\ =& E \sum_{i=1}^{m} n_{i} \left( X_{i} - \mu_{i} \right)^{2} \\ =& n_{1} \sigma_{1}^{2} + \cdots n_{m} \sigma_{m}^{2} \end{align*} $$ を満たすから $$ \sigma^{2} = {{ n_{1} \sigma_{1}^{2} + \cdots n_{m} \sigma_{m}^{2} } \over { n_{1} + \cdots + n_{m} }} $$ のように各集団の母分散がそのサンプルの数を重みとして持つ加重平均で表現される。今、サンプルが等分散性^{homoscedasticity}を持つ場合、つまり母平均だけが異なり$\sigma = \sigma_{1} = \cdots = \sigma_{m}$を仮定できる場合、不偏推定量である標本プール分散$S_{p}^{2}$を見てみよう。

公式

標本プール分散

$$ \begin{align*} \left\{ X_{1} \right\}_{n_{1}} \overset{\text{iid}}{\sim} & \left( \mu_{1} , \sigma^{2} \right) \\ \vdots & \\ \left\{ X_{m} \right\}_{n_{m}} \overset{\text{iid}}{\sim} & \left( \mu_{m} , \sigma^{2} \right) \end{align*} $$ 標本プール分散^{sample pooled variance}$S_{p}^{2}$は、各標本分散$S_{1}^{2} , \cdots , S_{m}^{2}$がその自由度を重みとして持つ加重平均で表現される。 $$ S_{p}^{2} := {{ \left( n_{1} - 1 \right) S_{1}^{2} + \cdots + \left( n_{m} - 1 \right) S_{m}^{2} } \over { \left( n_{1} - 1 \right) + \cdots + \left( n_{m} - 1 \right) }} = {{ \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} } \over { \sum_{i=1}^{m} \left( n_{i} - 1 \right) }} $$ このように定義された標本プール分散$S_{p}^{2}$は母集団プール分散$\sigma^{2}$の不偏推定量である。 $$ E S_{p}^{2} = \sigma^{2} $$

導出

連立方程式 $$ \begin{align*} S_{1}^{2} =& {{ 1 } \over { n_{1} - 1 }} \sum_{j=1}^{n_{1}} \left( X_{1} - \overline{X}_{1} \right)^{2} \\ & \vdots \\ S_{m}^{2} =& {{ 1 } \over { n_{m} - 1 }} \sum_{j=1}^{n_{m}} \left( X_{m} - \overline{X}_{m} \right)^{2} \end{align*} $$ から次のことを得る。ここで、$j = 1 , \cdots , n_{i}$は単純に$n_{i}$を繰り返すためのインデックスで、便宜上$X_{ij_{1}}$と$X_{ij_{2}}$は別々に使わないが、これらが独立であることは覚えておかなければならない。 $$ \begin{align*} & \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \left( X_{i} - \overline{X}_{i} \right)^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \left[ \left( X_{i} - \mu_{i} \right) + \left( \mu_{i} - \overline{X}_{i} \right) \right]^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \left[ \left( X_{i} - \mu_{i} \right)^{2} - 2 \left( X_{i} - \mu_{i} \right) \left( \overline{X}_{i} - \mu_{i} \right) + \left( \overline{X}_{i} - \mu_{i} \right)^{2} \right] \end{align*} $$

今、両辺に期待値を取る前に、各項に対する期待値がどうなるか見てみよう。

共分散の性質: 平均がそれぞれ$\mu_{X}$、$\mu_{Y}$の確率変数$X$、$Y$について、$\operatorname{Cov} (X ,Y) : = E \left[ ( X - \mu_{X} ) ( Y - \mu_{Y} ) \right]$を$X$と$Y$の共分散^covarianceと定義する。共分散は以下の性質を持つ。
[1]: $\Var (X) = \operatorname{Cov} (X,X)$
[4]: $\operatorname{Cov} (X + Y , Z ) = \operatorname{Cov}(X,Z) + \operatorname{Cov}(Y,Z)$
[5]: $\operatorname{Cov} (aX + b , cY + d ) = ac \operatorname{Cov}(X,Y)$

最初の項は明らかに$E \left( X_{i} - \mu_{i} \right)^{2} = \sigma_{i}^{2}$だ。$\overline{X}_{i} = \sum_{j} X_{i} / n_{i}$でiid、つまり独立に引かれた$X_{ij_{1}} \perp X_{ij_{2}}$なので、特定の$j_{0} \in \left\{ 1, \cdots, n_{m} \right\}$について $$ \begin{align*} & E \left( X_{i} - \mu_{i} \right) \left( \overline{X}_{i} - \mu_{i} \right) \\ =& \operatorname{Cov} \left( X_{i} , \overline{X}_{i} \right) \\ =& \operatorname{Cov} \left( X_{i} , {{ {X}_{i} } \over { n_{i} }} \right) + \sum_{j \ne j_{0}} \operatorname{Cov} \left( X_{ij} , {{ {X}_{ij_{0}} } \over { n_{i} }} \right) \\ =& {{ 1 } \over { n_{i} }} \operatorname{Cov} \left( X_{i} , X_{i} \right) + 0 \\ =& {{ 1 } \over { n_{i} }} \Var X_{i} \\ =& {{ 1 } \over { n_{i} }} \sigma_{i}^{2} \end{align*} $$ となり、標本平均の標準誤差の公式によって $$ E \left( \overline{X}_{i} - \mu_{i} \right)^{2} = {{ 1 } \over { n_{i} }} \sigma_{i}^{2} $$ したがって等分散性$\sigma = \sigma_{1} = \cdots = \sigma_{m}$を仮定すると $$ \begin{align*} & E \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \sigma_{i}^{2} - 2 \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} {{ 1 } \over { n_{i} }} \sigma_{i}^{2} + \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} {{ 1 } \over { n_{i} }} \sigma_{i}^{2} \\ =& n \sigma^{2} - \sum_{i=1}^{m} \sigma_{i}^{2} \\ =& n \sigma^{2} - m \sigma^{2} \\ =& (n-m) \sigma^{2} \\ =& \sum_{i=1}^{m} \left( n_{i} - 1 \right) \sigma^{2} \end{align*} $$ となり、最終的に次を得る。 $$ E S_{p}^{2} = E {{ \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} } \over { \sum_{i=1}^{m} \left( n_{i} - 1 \right) }} = \sigma^{2} $$

■