logo

다항 분포 📂확률분포론

다항 분포

정의

nNn \in \mathbb{N}범주 kNk \in \mathbb{N} 개만큼의 확률변수로 이루어진 랜덤벡터(X1,,Xk)\left( X_{1} , \cdots , X_{k} \right) 와 같이 나타내자. i=1kXi=n&i=1kpi=1 \sum_{i=1}^{k} X_{i} = n \qquad \& \qquad \sum_{i=1}^{k} p_{i} = 1 를 만족시키는 p=(p1,,pk)[0,1]k\mathbf{p} = \left( p_{1} , \cdots , p_{k} \right) \in [0,1]^{k} 에 대해 다음과 같은 확률 질량 함수를 가지는 다변량확률분포 Mk(n,p)M_{k} \left( n, \mathbf{p} \right)다항 분포multinomial distribution라 한다. p(x1,,xk)=n!x1!xk!p1x1pkxk,x1,,xkN0 p \left( x_{1} , \cdots , x_{k} \right) = {{ n! } \over { x_{1} ! \cdots x_{k}! }} p_{1}^{x_{1}} \cdots p_{k}^{x_{k}} \qquad , x_{1} , \cdots , x_{k} \in \mathbb{N}_{0}


  • [0,1]k=[0,1]××[0,1][0,1]^{k} = [0,1] \times \cdots \times [0,1]kk-셀이다.
  • N0={0}N\mathbb{N}_{0} = \left\{ 0 \right\} \cup \mathbb{N}자연수00 을 포함하는 집합이다.

설명

정의를 있는 그대로 해석하자면 (X1,,Xk)\left( X_{1} , \cdots , X_{k} \right) 는 확률질량함수 p(x1,,xk)=P(X1=x1,,Xk=xk)=n!x1!xk!p1x1pkxk \begin{align*} p \left( x_{1} , \cdots , x_{k} \right) =& P \left( X_{1} = x_{1} , \cdots , X_{k} = x_{k} \right) \\ =& {{ n! } \over { x_{1} ! \cdots x_{k}! }} p_{1}^{x_{1}} \cdots p_{k}^{x_{k}} \end{align*} 를 가지므로, nn 개의 원소가 각자 kk 가지의 범주 중 ii번째의 범주에 들어갈 확률이 pip_{i} 일 때 실제로 그 각자의 범주에 몇 개의 원소가 들어있는지를 가리키는 랜덤벡터다. 특히 k=2k = 2 일 때는 그 자체로 이항분포의 일반화가 된다. 한편 시행횟수가 n=1n = 1이면, 🔒(25/06/05)카테고리 분포라 한다.

범주 시행횟수
11nn
22베르누이 분포이항 분포
kk카테고리 분포다항 분포

기초성질

평균과 공분산

  • [1]: X:=(X1,,Xk)Mk(n,p)\mathbf{X} := \left( X_{1} , \cdots , X_{k} \right) \sim M_{k} \left( n, \mathbf{p} \right)ii번째 성분 XiX_{i}기대값E(Xi)=npi E \left( X_{i} \right) = n p_{i} 이고, 공분산행렬은 다음과 같다. Cov(X)=n[p1(1p1)p1p2p1pkp2p1p2(1p2)p2p2pkp1pkp2pk(1pk)] \operatorname{Cov} \left( \mathbf{X} \right) = n \begin{bmatrix} p_{1} \left( 1 - p_{1} \right) & - p_{1} p_{2} & \cdots & - p_{1} p_{k} \\ - p_{2} p_{1} & p_{2} \left( 1 - p_{2} \right) & \cdots & - p_{2} p_{2} \\ \vdots & \vdots & \ddots & \vdots \\ - p_{k} p_{1} & - p_{k} p_{2} & \cdots & p_{k} \left( 1 - p_{k} \right) \end{bmatrix}

정리

묶음 성질

iji \ne j 에 대해 Xi+XjX_{i} + X_{j}이항분포 Bin(n,pi+pj)\text{Bin} \left( n , p_{i} + p_{j} \right) 를 따른다. Xi+XjBin(n,pi+pj) X_{i} + X_{j} \sim \text{Bin} \left( n , p_{i} + p_{j} \right) 이를 묶음 성질lumping Porperty이라 부른다.

증명

평균

각각의 성분 XiX_{i} 만 보면 결국 pip_{i} 의 확률로 범주 ii 에 들어오냐 들어오지 않느냐의 이항분포이므로 XiBin(n,pi)X_{i} \sim \text{Bin} \left( n , p_{i} \right) 고, 그 기대값은 E(Xi)=npiE \left( X_{i} \right) = n p_{i} 다.

공분산

묶음 성질을 이용해서 직접 연역한다.

묶음 성질 1

n=1n = 1 인 경우, 그러니까 단 한 번의 시행을 한다고 했을 때 Xi+XjX_{i} + X_{j} 는 정확히 그 시행의 결과가 ii번째 범주에 속할거나 jj 번째 범주에 속할 때 11 이고 그 외의 경우엔 00 인 베르누이 분포 Bin(1,pi+pj)\text{Bin} \left( 1, p_{i} + p_{j} \right) 를 따른다.

이항 분포의 덧셈: 확률 변수 X1,,XnX_{1} , \cdots , X_{n} 들이 상호 독립이라고 하자. 이항 분포인 경우, XiBin(ni,p)X_i \sim \text{Bin} ( n_{i}, p) 이면 i=1mXiBin(i=1mni,p) \displaystyle \sum_{i=1}^{m} X_{i} \sim \text{Bin} \left( \sum_{i=1}^{m} n_{i} , p \right)

한편 nn 번의 시행은 각각 독립적으로 이루어지므로, 이항분포의 덧셈에 따라 다음을 얻는다. Xi+XjBin(j=1n1,pi+pj)=Bin(n,pi+pj) X_{i} + X_{j} \sim \text{Bin} \left( \sum_{j=1}^{n} 1 , p_{i} + p_{j} \right) = \text{Bin} \left( n , p_{i} + p_{j} \right)