logo

超幾何分布の平均と分散 📂確率分布論

超幾何分布の平均と分散

公式

확률변수 $X$ 가 초기하 분포를 따라서 $X \sim \operatorname{HG}(N, D, n)$ 이면 그 평균과 분산은 $p := D / N$ 에 대해 다음과 같다. $$ \begin{align*} E (X) =& n \frac{D}{N} = n p \\ \Var (X) =& n {\frac{ D }{ N }} {\frac{ N - D }{ N }} {\frac{ N - n }{ N - 1 }} = np(1 - p) \frac{N - n}{N - 1} \end{align*} $$

導出

平均 1

二項係数の引き算公式: $$ \binom{m}{x} \left( {\frac{ m }{ x }} \right) = \binom{m-1}{x-1} $$

二項係数について次が成り立つ。 $$ \begin{align*} x \binom{m}{x} =& m \binom{m-1}{x-1} \\ \binom{m}{x} =& {\frac{ m }{ x }} \binom{m-1}{x-1} \end{align*} $$

超幾何分布の定義: 自然数 $n, N, D \in \mathbb{N}$ に対して次のような 確率質量関数 を持つ 離散確率分布超幾何分布hypergeometric distributionという。 $$ p(x) = {\frac{ \binom{D}{x} \binom{N - D}{n - x} }{ \binom{N}{n} }} \qquad , x \in 0, 1, \cdots , n $$

以下の展開では変数置換 $y := x - 1$ を用いる。 $$ \begin{align*} E (X) =& \sum_{x=0}^{n} x p(x) \\ =& \sum_{x=0}^{n} x {\frac{ \binom{D}{x} \binom{N - D}{n - x} }{ \binom{N}{n} }} \\ =& 0 + \sum_{x=1}^{n} x {\frac{ \binom{D}{x} \binom{N - D}{n - x} }{ \binom{N}{n} }} \\ =& {\frac{ D n }{ N }} \sum_{x=1}^{n} { \frac{ \binom{D-1}{x-1} \binom{N - D}{n - x} }{ \binom{N-1}{n-1} }} \\ =& n {\frac{ D }{ N }} \sum_{y=0}^{n-1} { \frac{ \binom{D-1}{y} \binom{(N-1) - (D-1)}{(n - 1 )- y} }{ \binom{N-1}{n-1} }} \\ =& n {\frac{ D }{ N }} \cdot 1 \end{align*} $$ 最後の因子は $Y \sim \operatorname{HG}(N-1, D-1, n-1)$ の確率質量関数の和なので $1$ である。

分散 2

式的によりきれいな証明もあるが3、個人的には超幾何分布に対する直観を使う導出過程の方が面白いので以下の方法を紹介する。

$$ X = X_{1} + \cdots + X_{n} $$ 確率変数 $X$ は上記のように $0$ あるいは $1$ の確率変数 $X_{k}$ たちの和として表せる。$X_{k}$ の期待値は ▷eq13◯ 個のアイテムの中から ▷eq14◯ 個のアイテムを選ぶ確率だから $E \left( X_{k} \right) = D / N = p$ である。一方、超幾何分布で ▷eq16◯ 個を選ぶときは 非復元抽出 を行うので $X_{k}$ たちは互いに独立ではなく、分散を求めるためには次のように 共分散 が必要である。 $$ \begin{align*} \Var (X) =& \Var \left( X_{1} + \cdots + X_{n} \right) \\ =& \sum_{k=1}^{n} \Var \left( X_{k} \right) + \sum_{i \ne j} \Cov \left( X_{i}, X_{j} \right) \end{align*} $$

各々の $X_{k}$ は $0$ か $1$ なので $X_{k}^{2} = X_{k}$ であり、$X_{k}$ の分散は次の通りである。 $$ \begin{align*} \Var \left( X_{k} \right) =& E \left( X_{k}^{2} \right) - E \left( X_{k} \right)^{2} \\ =& E \left( X_{k} \right) - E \left( X_{k} \right)^{2} \\ =& p - p^{2} \\ =& {\frac{ D }{ N }} - \left( {\frac{ D }{ N }} \right)^{2} \\ =& {\frac{ ND - D^{2} }{ N^{2} }} \\ =& {\frac{ D \left( N - D \right) }{ N^{2} }} \end{align*} $$

共分散は $\Cov \left( X_{i}, X_{j} \right) = E \left( X_{i} X_{j} \right) - E \left( X_{i} \right) E \left( X_{j} \right)$ なので、 $X_{i}$ と $X_{j}$ の確率分布を知る必要がある。 $X_{i}$ と $X_{j}$ が $0$ あるいは $1$ の場合を場合分けすると次の通りである。 $$ X_{i} X_{j} = \begin{cases} 1 & \text{if } X_{i} = 1 \land X_{j} = 1 \\ 0 & \text{otherwise} \end{cases} $$ $X_{i} X_{j} = 1$ である確率とは、二つのサンプルを取る全場合の数 $N \left( N - 1 \right)$ のうち $D \left( D - 1 \right)$ の場合の割合として表され、 ▷eq33◯ の期待値を得られる。 $$ \begin{align*} & P \left( X_{i} X_{j} = 1 \right) = P \left( X_{i} = X_{j} = 1 \right) = {\frac{ D \left( D - 1 \right) }{ N \left( N - 1 \right) }} \\ \implies & E \left( X_{i} X_{j} \right) = 1 \cdot P \left( X_{i} X_{j} = 1 \right) + 0 \cdot P \left( X_{i} X_{j} = 0 \right) = {\frac{ D \left( D - 1 \right) }{ N \left( N - 1 \right) }} \end{align*} $$ これにより $X_{i}$ と $X_{j}$ の共分散は次の通りである。 $$ \begin{align*} & \Cov \left( X_{i} , X_{j} \right) \\ =& E \left( X_{i} X_{j} \right) - E \left( X_{i} \right) E \left( X_{j} \right) \\ =& {\frac{ D \left( D - 1 \right) }{ N \left( N - 1 \right) }} - \left( {\frac{ D }{ N }} \right)^{2} \\ =& {\frac{ N \left( D^{2} - D \right) - D^{2} \left( N - 1 \right) }{ N^{2} \left( N - 1 \right) }} \\ =& {\frac{ D^{2} - N D }{ N^{2} \left( N - 1 \right) }} \\ =& - {\frac{ D \left( N - D \right) }{ N^{2} \left( N - 1 \right) }} \end{align*} $$ 最後に $\Var \left( X \right)$ を計算すると次の通りである。 $$ \begin{align*} & \Var \left( X \right) \\ =& \sum_{k=1}^{n} \Var \left( X_{k} \right) + \sum_{i \ne j} \Cov \left( X_{i}, X_{j} \right) \\ =& \sum_{k=1}^{n} \Var \left( X_{k} \right) + 2 \sum_{i < j} \Cov \left( X_{i}, X_{j} \right) \\ =& n \Var X + 2 \binom{n}{2} \Cov \left( X_{i}, X_{j} \right) \\ =& n {\frac{ D \left( N - D \right) }{ N^{2} }} - 2 {\frac{ n (n-1) }{ 2 }} {\frac{ D \left( N - D \right) }{ N^{2} \left( N - 1 \right) }} \\ =& {\frac{ n D \left( N - D \right) }{ N^{2} }} \left( 1 - {\frac{ n - 1 }{ N - 1 }} \right) \\ =& {\frac{ n D \left( N - D \right) }{ N^{2} }} \cdot {\frac{ N - n }{ N - 1 }} \\ =& n p \left( 1 - p \right) {\frac{ N - n }{ N - 1 }} \end{align*} $$


  1. Casella. (2001). Statistical Inference(2nd Edition): p87. ↩︎

  2. https://mathweb.ucsd.edu/~gptesler/186/slides/186_hypergeom_17-handout.pdf ↩︎

  3. heropup, Derivation of mean and variance of Hypergeometric Distribution, URL (version: 2016-02-23): https://math.stackexchange.com/q/1669384 ↩︎