다항 분포
📂확률분포론 다항 분포 정의 n ∈ N n \in \mathbb{N} n ∈ N 과 범주 k ∈ N k \in \mathbb{N} k ∈ N 개만큼의 확률변수 로 이루어진 랜덤벡터 를 ( X 1 , ⋯ , X k ) \left( X_{1} , \cdots , X_{k} \right) ( X 1 , ⋯ , X k ) 와 같이 나타내자.
∑ i = 1 k X i = n & ∑ i = 1 k p i = 1
\sum_{i=1}^{k} X_{i} = n \qquad \& \qquad \sum_{i=1}^{k} p_{i} = 1
i = 1 ∑ k X i = n & i = 1 ∑ k p i = 1
를 만족시키는 p = ( p 1 , ⋯ , p k ) ∈ [ 0 , 1 ] k \mathbf{p} = \left( p_{1} , \cdots , p_{k} \right) \in [0,1]^{k} p = ( p 1 , ⋯ , p k ) ∈ [ 0 , 1 ] k 에 대해 다음과 같은 확률 질량 함수를 가지는 다변량확률분포 M k ( n , p ) M_{k} \left( n, \mathbf{p} \right) M k ( n , p ) 를 다항 분포 multinomial distribution 라 한다.
p ( x 1 , ⋯ , x k ) = n ! x 1 ! ⋯ x k ! p 1 x 1 ⋯ p k x k , x 1 , ⋯ , x k ∈ N 0
p \left( x_{1} , \cdots , x_{k} \right) = {{ n! } \over { x_{1} ! \cdots x_{k}! }} p_{1}^{x_{1}} \cdots p_{k}^{x_{k}} \qquad , x_{1} , \cdots , x_{k} \in \mathbb{N}_{0}
p ( x 1 , ⋯ , x k ) = x 1 ! ⋯ x k ! n ! p 1 x 1 ⋯ p k x k , x 1 , ⋯ , x k ∈ N 0
[ 0 , 1 ] k = [ 0 , 1 ] × ⋯ × [ 0 , 1 ] [0,1]^{k} = [0,1] \times \cdots \times [0,1] [ 0 , 1 ] k = [ 0 , 1 ] × ⋯ × [ 0 , 1 ] 은 k k k -셀 이다.N 0 = { 0 } ∪ N \mathbb{N}_{0} = \left\{ 0 \right\} \cup \mathbb{N} N 0 = { 0 } ∪ N 은 자연수 와 0 0 0 을 포함하는 집합 이다.설명 정의를 있는 그대로 해석하자면 ( X 1 , ⋯ , X k ) \left( X_{1} , \cdots , X_{k} \right) ( X 1 , ⋯ , X k ) 는 확률질량함수
p ( x 1 , ⋯ , x k ) = P ( X 1 = x 1 , ⋯ , X k = x k ) = n ! x 1 ! ⋯ x k ! p 1 x 1 ⋯ p k x k
\begin{align*}
p \left( x_{1} , \cdots , x_{k} \right) =& P \left( X_{1} = x_{1} , \cdots , X_{k} = x_{k} \right)
\\ =& {{ n! } \over { x_{1} ! \cdots x_{k}! }} p_{1}^{x_{1}} \cdots p_{k}^{x_{k}}
\end{align*}
p ( x 1 , ⋯ , x k ) = = P ( X 1 = x 1 , ⋯ , X k = x k ) x 1 ! ⋯ x k ! n ! p 1 x 1 ⋯ p k x k
를 가지므로, n n n 개의 원소가 각자 k k k 가지의 범주 중 i i i 번째의 범주에 들어갈 확률이 p i p_{i} p i 일 때 실제로 그 각자의 범주에 몇 개의 원소가 들어있는지를 가리키는 랜덤벡터다. 특히 k = 2 k = 2 k = 2 일 때는 그 자체로 이항분포 의 일반화가 된다. 한편 시행횟수가 n = 1 n = 1 n = 1 이면, 🔒(25/06/05)카테고리 분포 라 한다.
기초성질 평균과 공분산 [1]: X : = ( X 1 , ⋯ , X k ) ∼ M k ( n , p ) \mathbf{X} := \left( X_{1} , \cdots , X_{k} \right) \sim M_{k} \left( n, \mathbf{p} \right) X := ( X 1 , ⋯ , X k ) ∼ M k ( n , p ) 면 i i i 번째 성분 X i X_{i} X i 의 기대값 은
E ( X i ) = n p i
E \left( X_{i} \right) = n p_{i}
E ( X i ) = n p i
이고, 공분산행렬 은 다음과 같다.
Cov ( X ) = n [ p 1 ( 1 − p 1 ) − p 1 p 2 ⋯ − p 1 p k − p 2 p 1 p 2 ( 1 − p 2 ) ⋯ − p 2 p 2 ⋮ ⋮ ⋱ ⋮ − p k p 1 − p k p 2 ⋯ p k ( 1 − p k ) ]
\operatorname{Cov} \left( \mathbf{X} \right) = n \begin{bmatrix}
p_{1} \left( 1 - p_{1} \right) & - p_{1} p_{2} & \cdots & - p_{1} p_{k}
\\ - p_{2} p_{1} & p_{2} \left( 1 - p_{2} \right) & \cdots & - p_{2} p_{2}
\\ \vdots & \vdots & \ddots & \vdots
\\ - p_{k} p_{1} & - p_{k} p_{2} & \cdots & p_{k} \left( 1 - p_{k} \right)
\end{bmatrix}
Cov ( X ) = n p 1 ( 1 − p 1 ) − p 2 p 1 ⋮ − p k p 1 − p 1 p 2 p 2 ( 1 − p 2 ) ⋮ − p k p 2 ⋯ ⋯ ⋱ ⋯ − p 1 p k − p 2 p 2 ⋮ p k ( 1 − p k ) 정리 묶음 성질 i ≠ j i \ne j i = j 에 대해 X i + X j X_{i} + X_{j} X i + X j 는 이항분포 Bin ( n , p i + p j ) \text{Bin} \left( n , p_{i} + p_{j} \right) Bin ( n , p i + p j ) 를 따른다.
X i + X j ∼ Bin ( n , p i + p j )
X_{i} + X_{j} \sim \text{Bin} \left( n , p_{i} + p_{j} \right)
X i + X j ∼ Bin ( n , p i + p j )
이를 묶음 성질 lumping Porperty 이라 부른다.
증명 평균 각각의 성분 X i X_{i} X i 만 보면 결국 p i p_{i} p i 의 확률로 범주 i i i 에 들어오냐 들어오지 않느냐의 이항분포 이므로 X i ∼ Bin ( n , p i ) X_{i} \sim \text{Bin} \left( n , p_{i} \right) X i ∼ Bin ( n , p i ) 고, 그 기대값은 E ( X i ) = n p i E \left( X_{i} \right) = n p_{i} E ( X i ) = n p i 다.
■
공분산 묶음 성질을 이용해서 직접 연역한다.
■
묶음 성질 n = 1 n = 1 n = 1 인 경우, 그러니까 단 한 번의 시행을 한다고 했을 때 X i + X j X_{i} + X_{j} X i + X j 는 정확히 그 시행의 결과가 i i i 번째 범주에 속할거나 j j j 번째 범주에 속할 때 1 1 1 이고 그 외의 경우엔 0 0 0 인 베르누이 분포 Bin ( 1 , p i + p j ) \text{Bin} \left( 1, p_{i} + p_{j} \right) Bin ( 1 , p i + p j ) 를 따른다.
이항 분포의 덧셈 : 확률 변수 X 1 , ⋯ , X n X_{1} , \cdots , X_{n} X 1 , ⋯ , X n 들이 상호 독립 이라고 하자. 이항 분포 인 경우, X i ∼ Bin ( n i , p ) X_i \sim \text{Bin} ( n_{i}, p) X i ∼ Bin ( n i , p ) 이면
∑ i = 1 m X i ∼ Bin ( ∑ i = 1 m n i , p )
\displaystyle \sum_{i=1}^{m} X_{i} \sim \text{Bin} \left( \sum_{i=1}^{m} n_{i} , p \right)
i = 1 ∑ m X i ∼ Bin ( i = 1 ∑ m n i , p )
한편 n n n 번의 시행은 각각 독립적으로 이루어지므로, 이항분포의 덧셈에 따라 다음을 얻는다.
X i + X j ∼ Bin ( ∑ j = 1 n 1 , p i + p j ) = Bin ( n , p i + p j )
X_{i} + X_{j} \sim \text{Bin} \left( \sum_{j=1}^{n} 1 , p_{i} + p_{j} \right) = \text{Bin} \left( n , p_{i} + p_{j} \right)
X i + X j ∼ Bin ( j = 1 ∑ n 1 , p i + p j ) = Bin ( n , p i + p j )
■