負の二項分布
定義 1
自然数 $n, N, D \in \mathbb{N}$ に対して次のような 確率質量関数 を持つ 離散確率分布 を 超幾何分布hypergeometric distribution と呼ぶ。 $$ p(x) = {\frac{ \binom{D}{x} \binom{N - D}{n - x} }{ \binom{N}{n} }} \qquad , x \in 0, 1, \cdots , n $$ ここで $\binom{N}{n} = _{N} C _{n}$ は 二項係数 である。
説明
一般に超幾何分布では $N$ が全体母集団の大きさ、 $n$ がサンプルの大きさ、 $D$ が母集団中の関心対象のアイテムの数を意味する。たとえば長さが $N$ のリストが $D$ 個の $1$ と $N - D$ 個の $0$ から成るとする。 $$ \left( 0 , 0, 1, \cdots , 1, 0, 1 \right) $$ このリストから $n$ 個のアイテムを非復元抽出するとき、その合計である確率変数 $X$ は超幾何分布に従う。
サンプリングの観点から超幾何分布と対照的なのは二項分布で、「表が出る確率が $p$ のコインを $n$ 回投げて表の数を数える」というのが二項分布だとすれば、「表が出ても再び表が出る可能性がある」という点で復元抽出に相当する。一方、非復元抽出ではすでに引かれたアイテムが再び引かれないため、二項分布とは異なる確率分布である超幾何分布が必要になる。
まず長さが $N$ のリストから $n$ 個のアイテムを選ぶ場合の数は $_{N} C _{n}$ である。$D$ 個の $1$ の中から $x$ 個を選ぶ場合の数は $_{D} C _{x}$ であり、$N - D$ 個の $0$ の中から $n - x$ 個を選ぶ場合の数は $_{N - D} C _{n - x}$ である。言い換えれば、$D$ 個のうちから $x$ 個の $1$ が選ばれ、$N - D$ 個のうちから $n - x$ 個の $0$ が選ばれる確率は、次のように超幾何分布の確率質量関数そのものとして表される。 $$ p(x) = {\frac{ 1 }{ \underbrace{\binom{N}{n}}_{\text{total}} }} \overbrace{\binom{D}{x}}^{\text{number of } 1} \cdot \underbrace{\binom{N - D}{n - x}}_{\text{number of } 0} $$
二項分布の平均と分散: $X \sim \text{Bin}(n,p)$ なら $$ \begin{align*} E(X) =& np \\ \Var(X) =& np(1-p) \end{align*} $$
実際に $p = \frac{D}{N}$ と置いたときに二項分布と平均・分散を比較すると、他はすべて同様だが分散だけに $\frac{N - n}{N - 1}$ という因子が掛かっていることが分かる。
基本的性質
平均と分散
$p = \frac{D}{N}$ とする。 $X \sim \operatorname{HG}(N, D, n)$ なら $$ \begin{align*} E \left( X \right) =& n \frac{D}{N} = n p \\ \Var \left( X \right) =& n {\frac{ D }{ N }} {\frac{ N - D }{ N }} {\frac{ N - n }{ N - 1 }} = np(1 - p) \frac{N - n}{N - 1} \end{align*} $$
Hogg et al. (2018). Introduction to Mathematical Statistcs(8th Edition): p162. ↩︎