多項分布
定義
$n \in \mathbb{N}$ とカテゴリ $k \in \mathbb{N}$ の数の確率変数で構成されるランダムベクトルを $\left( X_{1} , \cdots , X_{k} \right)$ と示そう。 $$ \sum_{i=1}^{k} X_{i} = n \qquad \& \qquad \sum_{i=1}^{k} p_{i} = 1 $$ これを満たす $\mathbf{p} = \left( p_{1} , \cdots , p_{k} \right) \in [0,1]^{k}$ について、以下の確率質量関数を持つ多変量確率分布 $M_{k} \left( n, \mathbf{p} \right)$ を多項分布multinomial distributionと呼ぶ。 $$ p \left( x_{1} , \cdots , x_{k} \right) = {{ n! } \over { x_{1} ! \cdots x_{k}! }} p_{1}^{x_{1}} \cdots p_{k}^{x_{k}} \qquad , x_{1} , \cdots , x_{k} \in \mathbb{N}_{0} $$
- $[0,1]^{k} = [0,1] \times \cdots \times [0,1]$ は$k$-セルだ。
- $\mathbb{N}_{0} = \left\{ 0 \right\} \cup \mathbb{N}$ は自然数と $0$ を含む集合だ。
説明
定義をそのまま解釈すると、$\left( X_{1} , \cdots , X_{k} \right)$ は確率質量関数 $$ \begin{align*} p \left( x_{1} , \cdots , x_{k} \right) =& P \left( X_{1} = x_{1} , \cdots , X_{k} = x_{k} \right) \\ =& {{ n! } \over { x_{1} ! \cdots x_{k}! }} p_{1}^{x_{1}} \cdots p_{k}^{x_{k}} \end{align*} $$ を持つので、$n$ 個の要素がそれぞれ $k$ 個のカテゴリーの中で $i$ 番目のカテゴリーに入る確率が $p_{i}$ の時、実際に各自のカテゴリーにどれだけの要素があるかを示すランダムベクトルだ。特に $k = 2$ の時は、二項分布の一般化そのものになる。
基本特性
平均と共分散
- [1]: $\mathbf{X} := \left( X_{1} , \cdots , X_{k} \right) \sim M_{k} \left( n, \mathbf{p} \right)$ の場合、$i$番目の成分 $X_{i}$ の期待値は $$ E \left( X_{i} \right) = n p_{i} $$ で、共分散行列は以下のようになる。 $$ \operatorname{Cov} \left( \mathbf{X} \right) = n \begin{bmatrix} p_{1} \left( 1 - p_{1} \right) & - p_{1} p_{2} & \cdots & - p_{1} p_{k} \\ - p_{2} p_{1} & p_{2} \left( 1 - p_{2} \right) & \cdots & - p_{2} p_{2} \\ \vdots & \vdots & \ddots & \vdots \\ - p_{k} p_{1} & - p_{k} p_{2} & \cdots & p_{k} \left( 1 - p_{k} \right) \end{bmatrix} $$
定理
バンドリングの性質
$i \ne j$ に対して、$X_{i} + X_{j}$ は二項分布 $\text{Bin} \left( n , p_{i} + p_{j} \right)$ に従う。 $$ X_{i} + X_{j} \sim \text{Bin} \left( n , p_{i} + p_{j} \right) $$ これをバンドリングの性質lumping Propertyと呼ぶ。
証明
平均
各成分 $X_{i}$ だけを見れば、結局 $p_{i}$ の確率でカテゴリ $i$ に入るか入らないかの二項分布なので、$X_{i} \sim \text{Bin} \left( n , p_{i} \right)$ で、その期待値は $E \left( X_{i} \right) = n p_{i}$ である。
■
共分散
■
バンドリングの性質 1
$n = 1$ の場合、つまり一回の試行をした時、$X_{i} + X_{j}$ はその試行の結果が $i$ 番目か $j$ 番目のカテゴリーに属する時正確に $1$ であり、他の場合は $0$ のベルヌーイ分布 $\text{Bin} \left( 1, p_{i} + p_{j} \right)$ に従う。
二項分布の加算: 確率変数 $X_{1} , \cdots , X_{n}$ が相互独立とする。二項分布の場合、$X_i \sim \text{Bin} ( n_{i}, p)$ が真なら $$ \displaystyle \sum_{i=1}^{m} X_{i} \sim \text{Bin} \left( \sum_{i=1}^{m} n_{i} , p \right) $$
一方で $n$ 回の試行はそれぞれ独立に行われるので、二項分布の加算に従って、次を得る。 $$ X_{i} + X_{j} \sim \text{Bin} \left( \sum_{j=1}^{n} 1 , p_{i} + p_{j} \right) = \text{Bin} \left( n , p_{i} + p_{j} \right) $$
■