음이항 분포
📂확률분포론음이항 분포
정의

r∈N 와 p∈(0,1] 에 대해 다음과 같은 확률 질량 함수를 가지는 이산 확률 분포 NB(r,p) 를 음이항 분포negative Binomial distribution라고 한다.
p(x)=(x−1r+x−1)pr(1−p)x,x=0,1,2,⋯
기초 성질
적률 생성 함수
- [1]: m(t)=[1−(1−p)etp]r,t<−log(1−P)
평균과 분산
- [2]: X∼NB(r,p) 면
E(X)=Var(X)=pr(1−p)p2r(1−p)
설명
음이항 분포는 일어날 확률이 p 인 어떤 사건이 r 번 일어날 때까지의 횟수에 관심이 있다. 예를 들어 동전을 던져서 앞면이 두 번 나오려면 몇 번 정도 던져야할지를 생각해보자. 앞면이 나올 확률이 50이므로 앞면이 한 번 나오려면 두 번 정도 던지면 되겠고, 그게 한 번 더 반복되어야 하므로 그 기댓값은 4 라고 짐작할 수 있을 것이다.
직관적으로 봤을 때, 음이항분포는 기하 분포에서 횟수 r 을 일반화시킨 분포다. 실제로 사건이 일어나는 횟수가 한 번이면, 즉 r=1 이면 정확히 기하분포와 같아진다.
명명
음이항 분포라고 부르는 이유는 확률질량함수의 모양이 음이항 계수와 관계가 있기 때문이다.
정리
- [b]: Y=X1+⋯+Xr 이고 Xi∼iidGeo(p) 면 Y∼NB(r,p)
증명
[1]
음이항 계수:
(−1)k(k−r)=(kr+k−1)
m(t)====x=0∑∞etxp(x)x=0∑∞etx(xr+x−1)pr(1−p)xprx=0∑∞(x−r)(−1)x[(1−p)et]xprx=0∑∞(x−r)[−(1−p)et]x
이항 급수: ∣x∣<1 이면 α∈C 에 대해 (1+x)α=k=0∑∞(kα)xk
이항 급수에 따라 x=0∑∞(x−r)[−(1−p)et]x=[1−(1−p)et]−r 이므로
m(t)=[1−(1−p)etp]r,t<−log(1−P)
■
[2]
기하분포의 일반화라는 점을 이용한다.
■
[b]
기하 분포의 확률 질량 함수가 p(x)=p(1−p)x,x=0,1,2,⋯ 로 정의 될 때 그 적률 생성 함수는 다음과 같다.
m(t)=p(1−(1−p)et)−1
상호 독립인 확률 변수 X1,X2,⋯,Xr 이 Geo(p) 를 따르므로 Y 의 적률 생성 함수는
MY(t)=====E(eYt)E(e(X1+X2+⋯+Xr)t)E(eX1t)E(eX2t)⋯E(eXrt)i=1∏rp(1−(1−p)et)−1pr{(1−(1−p)et)}−r
이는 음이항 분포 NB(r,p) 의 적률 생성 함수와 같으므로 Y∼NB(r,p)
■
코드
다음은 음이항분포의 확률질량함수를 움짤로 보여주는 줄리아 코드다.
@time using LaTeXStrings
@time using Distributions
@time using Plots
cd(@__DIR__)
x = 0:20
P = collect(0.2:0.01:0.8); append!(P, reverse(P))
animation = @animate for p ∈ P
scatter(x, pdf.(NegativeBinomial(5, p), x),
color = :black, markerstrokecolor = :black,
label = "r = 5, p = $(rpad(p, 4, '0'))", size = (400,300))
xlims!(0,20); ylims!(0,0.5); title!(L"\mathrm{pmf\,of\,NB}(5, p)")
end
gif(animation, "pmf5.gif")
animation = @animate for p ∈ P
scatter(x, pdf.(NegativeBinomial(10, p), x),
color = :black, markerstrokecolor = :black,
label = "r = 10, p = $(rpad(p, 4, '0'))", size = (400,300))
xlims!(0,20); ylims!(0,0.5); title!(L"\mathrm{pmf\,of\,NB}(10, p)")
end
gif(animation, "pmf10.gif")