다항 분포
정의
$n \in \mathbb{N}$ 과 범주 $k \in \mathbb{N}$ 개만큼의 확률변수로 이루어진 랜덤벡터를 $\left( X_{1} , \cdots , X_{k} \right)$ 와 같이 나타내자. $$ \sum_{i=1}^{k} X_{i} = n \qquad \& \qquad \sum_{i=1}^{k} p_{i} = 1 $$ 를 만족시키는 $\mathbf{p} = \left( p_{1} , \cdots , p_{k} \right) \in [0,1]^{k}$ 에 대해 다음과 같은 확률 질량 함수를 가지는 다변량확률분포 $M_{k} \left( n, \mathbf{p} \right)$ 를 다항 분포multinomial distribution라 한다. $$ p \left( x_{1} , \cdots , x_{k} \right) = {{ n! } \over { x_{1} ! \cdots x_{k}! }} p_{1}^{x_{1}} \cdots p_{k}^{x_{k}} \qquad , x_{1} , \cdots , x_{k} \in \mathbb{N}_{0} $$
- $[0,1]^{k} = [0,1] \times \cdots \times [0,1]$ 은 $k$-셀이다.
- $\mathbb{N}_{0} = \left\{ 0 \right\} \cup \mathbb{N}$ 은 자연수와 $0$ 을 포함하는 집합이다.
설명
정의를 있는 그대로 해석하자면 $\left( X_{1} , \cdots , X_{k} \right)$ 는 확률질량함수 $$ \begin{align*} p \left( x_{1} , \cdots , x_{k} \right) =& P \left( X_{1} = x_{1} , \cdots , X_{k} = x_{k} \right) \\ =& {{ n! } \over { x_{1} ! \cdots x_{k}! }} p_{1}^{x_{1}} \cdots p_{k}^{x_{k}} \end{align*} $$ 를 가지므로, $n$ 개의 원소가 각자 $k$ 가지의 범주 중 $i$번째의 범주에 들어갈 확률이 $p_{i}$ 일 때 실제로 그 각자의 범주에 몇 개의 원소가 들어있는지를 가리키는 랜덤벡터다. 특히 $k = 2$ 일 때는 그 자체로 이항분포의 일반화가 된다.
기초성질
평균과 공분산
- [1]: $\mathbf{X} := \left( X_{1} , \cdots , X_{k} \right) \sim M_{k} \left( n, \mathbf{p} \right)$ 면 $i$번째 성분 $X_{i}$의 기대값은 $$ E \left( X_{i} \right) = n p_{i} $$ 이고, 공분산행렬은 다음과 같다. $$ \operatorname{Cov} \left( \mathbf{X} \right) = n \begin{bmatrix} p_{1} \left( 1 - p_{1} \right) & - p_{1} p_{2} & \cdots & - p_{1} p_{k} \\ - p_{2} p_{1} & p_{2} \left( 1 - p_{2} \right) & \cdots & - p_{2} p_{2} \\ \vdots & \vdots & \ddots & \vdots \\ - p_{k} p_{1} & - p_{k} p_{2} & \cdots & p_{k} \left( 1 - p_{k} \right) \end{bmatrix} $$
정리
묶음 성질
$i \ne j$ 에 대해 $X_{i} + X_{j}$ 는 이항분포 $\text{Bin} \left( n , p_{i} + p_{j} \right)$ 를 따른다. $$ X_{i} + X_{j} \sim \text{Bin} \left( n , p_{i} + p_{j} \right) $$ 이를 묶음 성질lumping Porperty이라 부른다.
증명
평균
각각의 성분 $X_{i}$ 만 보면 결국 $p_{i}$ 의 확률로 범주 $i$ 에 들어오냐 들어오지 않느냐의 이항분포이므로 $X_{i} \sim \text{Bin} \left( n , p_{i} \right)$ 고, 그 기대값은 $E \left( X_{i} \right) = n p_{i}$ 다.
■
공분산
■
묶음 성질 1
$n = 1$ 인 경우, 그러니까 단 한 번의 시행을 한다고 했을 때 $X_{i} + X_{j}$ 는 정확히 그 시행의 결과가 $i$번째 범주에 속할거나 $j$ 번째 범주에 속할 때 $1$ 이고 그 외의 경우엔 $0$ 인 베르누이 분포 $\text{Bin} \left( 1, p_{i} + p_{j} \right)$ 를 따른다.
이항 분포의 덧셈: 확률 변수 $X_{1} , \cdots , X_{n}$ 들이 상호 독립이라고 하자. 이항 분포인 경우, $X_i \sim \text{Bin} ( n_{i}, p)$ 이면 $$ \displaystyle \sum_{i=1}^{m} X_{i} \sim \text{Bin} \left( \sum_{i=1}^{m} n_{i} , p \right) $$
한편 $n$ 번의 시행은 각각 독립적으로 이루어지므로, 이항분포의 덧셈에 따라 다음을 얻는다. $$ X_{i} + X_{j} \sim \text{Bin} \left( \sum_{j=1}^{n} 1 , p_{i} + p_{j} \right) = \text{Bin} \left( n , p_{i} + p_{j} \right) $$
■