多項分布
📂確率分布論多項分布
定義
n∈N とカテゴリ k∈N の数の確率変数で構成されるランダムベクトルを (X1,⋯,Xk) と示そう。
i=1∑kXi=n&i=1∑kpi=1
これを満たす p=(p1,⋯,pk)∈[0,1]k について、以下の確率質量関数を持つ多変量確率分布 Mk(n,p) を多項分布multinomial distributionと呼ぶ。
p(x1,⋯,xk)=x1!⋯xk!n!p1x1⋯pkxk,x1,⋯,xk∈N0
- [0,1]k=[0,1]×⋯×[0,1] はk-セルだ。
- N0={0}∪N は自然数と 0 を含む集合だ。
説明
定義をそのまま解釈すると、(X1,⋯,Xk) は確率質量関数
p(x1,⋯,xk)==P(X1=x1,⋯,Xk=xk)x1!⋯xk!n!p1x1⋯pkxk
を持つので、n 個の要素がそれぞれ k 個のカテゴリーの中で i 番目のカテゴリーに入る確率が pi の時、実際に各自のカテゴリーにどれだけの要素があるかを示すランダムベクトルだ。特に k=2 の時は、二項分布の一般化そのものになる。
基本特性
平均と共分散
- [1]: X:=(X1,⋯,Xk)∼Mk(n,p) の場合、i番目の成分 Xi の期待値は
E(Xi)=npi
で、共分散行列は以下のようになる。
Cov(X)=np1(1−p1)−p2p1⋮−pkp1−p1p2p2(1−p2)⋮−pkp2⋯⋯⋱⋯−p1pk−p2p2⋮pk(1−pk)
定理
バンドリングの性質
i=j に対して、Xi+Xj は二項分布 Bin(n,pi+pj) に従う。
Xi+Xj∼Bin(n,pi+pj)
これをバンドリングの性質lumping Propertyと呼ぶ。
証明
平均
各成分 Xi だけを見れば、結局 pi の確率でカテゴリ i に入るか入らないかの二項分布なので、Xi∼Bin(n,pi) で、その期待値は E(Xi)=npi である。
■
共分散
バンドリングの性質を使って直接導出する。
■
バンドリングの性質
n=1 の場合、つまり一回の試行をした時、Xi+Xj はその試行の結果が i 番目か j 番目のカテゴリーに属する時正確に 1 であり、他の場合は 0 のベルヌーイ分布 Bin(1,pi+pj) に従う。
二項分布の加算: 確率変数 X1,⋯,Xn が相互独立とする。二項分布の場合、Xi∼Bin(ni,p) が真なら
i=1∑mXi∼Bin(i=1∑mni,p)
一方で n 回の試行はそれぞれ独立に行われるので、二項分布の加算に従って、次を得る。
Xi+Xj∼Bin(j=1∑n1,pi+pj)=Bin(n,pi+pj)
■