有限母集団補正係数の導出
公式
母分散が $\sigma^{2}$ である ランダムサンプル $X_{1} , \cdots , X_{N}$ が与えられているとき、全標本に対する 標本平均 $\overline{X}_{N}$ の 分散 は $\sigma^{2} / N$ である。そのうち $n \le N$ 個だけを 非復元抽出 した標本における標本平均は次のような分散を持ち、標準誤差 $\text{s.e.} \left( \overline{X}_{n} \right) = \sigma^{2} / n$ の二乗項に掛かる $\text{FPC} = \left( N - n \right) / \left( N - 1 \right)$ を 有限母集団補正係数finite population correction factorと呼ぶ。 $$ \Var \left( \overline{X}_{n} \right) = \text{s.e.} \left( \overline{X}_{n} \right) \cdot \text{FPC} = {\frac{ \sigma^{2} }{ n }} \cdot {\frac{ N - n }{ N - 1 }} $$
説明
FPCは有限母集団から標本を 非復元抽出 する際に用いる因子で、式的には $0$ と $1$ の間の値を取り、$\overline{X}_{n}$ の分散が過度にならないよう調整する役割を果たすと見ることができる。
この公式は クラスカル・ウォリス $H$ 検定 の 検定統計量 を導くときに用いられる。
導出
式的により整った証明は存在するが1、その意味を正確に把握するためには 超幾何分布 による直観的な導出過程を見る方が学習に有用である2。
二項分布の平均と分散: $X \sim \text{Bin}(n,p)$ なら $$ \begin{align*} E(X) =& np \\ \Var(X) =& np(1-p) \end{align*} $$
超幾何分布の平均と分散 $p = \frac{D}{N}$ とする。 $X \sim \operatorname{HG}(N, D, n)$ なら $$ \begin{align*} E \left( X \right) =& n p \\ \Var \left( X \right) =& np(1 - p) \frac{N - n}{N - 1} \end{align*} $$
全標本のうちただ $n$ 個の標本だけに関心があり、それらがある特定の色でマーキングされているとする。マーキングされた標本が選ばれる確率分布は サンプリング の方法によって異なるが、$k$ 番目の標本がマーキングされているなら $1$ で、マーキングされていなければ $0$ であるような 確率変数 $Y_{k} : \Omega \to \left\{ 0 , 1 \right\}$ たちを考えると、その和である $Y = \sum_{k=1}^{N} Y_{k}$ は復元抽出では 二項分布 に従い、非復元抽出では 超幾何分布 に従う。 $$ \overline{X}_{n} = {\frac{ 1 }{ n }} \sum_{k=1}^{N} X_{k} Y_{k} $$
二項分布の分散と超幾何分布の分散を比較すると、違いはただ FPC $(N-n)/(N-1)$ が掛かっているかどうかだけである。二項分布の分散が $n p ( p - 1 )$ であり、超幾何分布の分散が $n p ( p - 1 ) (N - n) / (N - 1)$ であるというのは、すべての標本が $X_{k} = 1$ のときの結果であり、これが元の $X_{k}$ に置き換わると FPC と掛かる部分だけが $\sigma^{2} / n$ に変わればよい。
■
P VN, Explanation of finite population correction factor?, URL (version: 2022-10-06): https://stats.stackexchange.com/q/514259 ↩︎
chl, Explanation of finite population correction factor?, URL (version: 2010-12-05): https://stats.stackexchange.com/q/5164 ↩︎