logo

多項分布 📂確率分布論

多項分布

定義

nNn \in \mathbb{N}カテゴリ kNk \in \mathbb{N} の数の確率変数で構成されるランダムベクトル(X1,,Xk)\left( X_{1} , \cdots , X_{k} \right) と示そう。 i=1kXi=n&i=1kpi=1 \sum_{i=1}^{k} X_{i} = n \qquad \& \qquad \sum_{i=1}^{k} p_{i} = 1 これを満たす p=(p1,,pk)[0,1]k\mathbf{p} = \left( p_{1} , \cdots , p_{k} \right) \in [0,1]^{k} について、以下の確率質量関数を持つ多変量確率分布 Mk(n,p)M_{k} \left( n, \mathbf{p} \right)多項分布multinomial distributionと呼ぶ。 p(x1,,xk)=n!x1!xk!p1x1pkxk,x1,,xkN0 p \left( x_{1} , \cdots , x_{k} \right) = {{ n! } \over { x_{1} ! \cdots x_{k}! }} p_{1}^{x_{1}} \cdots p_{k}^{x_{k}} \qquad , x_{1} , \cdots , x_{k} \in \mathbb{N}_{0}


  • [0,1]k=[0,1]××[0,1][0,1]^{k} = [0,1] \times \cdots \times [0,1]kk-セルだ。
  • N0={0}N\mathbb{N}_{0} = \left\{ 0 \right\} \cup \mathbb{N}自然数00 を含む集合だ。

説明

定義をそのまま解釈すると、(X1,,Xk)\left( X_{1} , \cdots , X_{k} \right) は確率質量関数 p(x1,,xk)=P(X1=x1,,Xk=xk)=n!x1!xk!p1x1pkxk \begin{align*} p \left( x_{1} , \cdots , x_{k} \right) =& P \left( X_{1} = x_{1} , \cdots , X_{k} = x_{k} \right) \\ =& {{ n! } \over { x_{1} ! \cdots x_{k}! }} p_{1}^{x_{1}} \cdots p_{k}^{x_{k}} \end{align*} を持つので、nn 個の要素がそれぞれ kk 個のカテゴリーの中で ii 番目のカテゴリーに入る確率が pip_{i} の時、実際に各自のカテゴリーにどれだけの要素があるかを示すランダムベクトルだ。特に k=2k = 2 の時は、二項分布の一般化そのものになる。

基本特性

平均と共分散

  • [1]: X:=(X1,,Xk)Mk(n,p)\mathbf{X} := \left( X_{1} , \cdots , X_{k} \right) \sim M_{k} \left( n, \mathbf{p} \right) の場合、ii番目の成分 XiX_{i}期待値E(Xi)=npi E \left( X_{i} \right) = n p_{i} で、共分散行列は以下のようになる。 Cov(X)=n[p1(1p1)p1p2p1pkp2p1p2(1p2)p2p2pkp1pkp2pk(1pk)] \operatorname{Cov} \left( \mathbf{X} \right) = n \begin{bmatrix} p_{1} \left( 1 - p_{1} \right) & - p_{1} p_{2} & \cdots & - p_{1} p_{k} \\ - p_{2} p_{1} & p_{2} \left( 1 - p_{2} \right) & \cdots & - p_{2} p_{2} \\ \vdots & \vdots & \ddots & \vdots \\ - p_{k} p_{1} & - p_{k} p_{2} & \cdots & p_{k} \left( 1 - p_{k} \right) \end{bmatrix}

定理

バンドリングの性質

iji \ne j に対して、Xi+XjX_{i} + X_{j}二項分布 Bin(n,pi+pj)\text{Bin} \left( n , p_{i} + p_{j} \right) に従う。 Xi+XjBin(n,pi+pj) X_{i} + X_{j} \sim \text{Bin} \left( n , p_{i} + p_{j} \right) これをバンドリングの性質lumping Propertyと呼ぶ。

証明

平均

各成分 XiX_{i} だけを見れば、結局 pip_{i} の確率でカテゴリ ii に入るか入らないかの二項分布なので、XiBin(n,pi)X_{i} \sim \text{Bin} \left( n , p_{i} \right) で、その期待値は E(Xi)=npiE \left( X_{i} \right) = n p_{i} である。

共分散

バンドリングの性質を使って直接導出する。

バンドリングの性質 1

n=1n = 1 の場合、つまり一回の試行をした時、Xi+XjX_{i} + X_{j} はその試行の結果が ii 番目か jj 番目のカテゴリーに属する時正確に 11 であり、他の場合は 00 のベルヌーイ分布 Bin(1,pi+pj)\text{Bin} \left( 1, p_{i} + p_{j} \right) に従う。

二項分布の加算: 確率変数 X1,,XnX_{1} , \cdots , X_{n}相互独立とする。二項分布の場合、XiBin(ni,p)X_i \sim \text{Bin} ( n_{i}, p) が真なら i=1mXiBin(i=1mni,p) \displaystyle \sum_{i=1}^{m} X_{i} \sim \text{Bin} \left( \sum_{i=1}^{m} n_{i} , p \right)

一方で nn 回の試行はそれぞれ独立に行われるので、二項分布の加算に従って、次を得る。 Xi+XjBin(j=1n1,pi+pj)=Bin(n,pi+pj) X_{i} + X_{j} \sim \text{Bin} \left( \sum_{j=1}^{n} 1 , p_{i} + p_{j} \right) = \text{Bin} \left( n , p_{i} + p_{j} \right)