logo

음이항 분포 📂확률분포론

음이항 분포

정의 1

pmf10 pmf20

$r \in \mathbb{N}$ 와 $p \in (0,1]$ 에 대해 다음과 같은 확률 질량 함수를 가지는 이산 확률 분포 $\text{NB}(r,p)$ 를 음이항 분포negative Binomial distribution라고 한다. $$ p(x) = \binom{r+x-1}{x-1} p^{r}(1-p)^{x} \qquad, x = 0,1,2,\cdots $$

기초 성질

적률 생성 함수

  • [1]: $$m(t) = \left[ {{ p } \over { 1 - (1-p) e^{t} }} \right]^{r} \qquad , t < -\log (1-P)$$

평균과 분산

  • [2]: $X \sim \text{NB}(r, p)$ 면 $$ \begin{align*} E(X) =& {{ r (1-p) } \over { p }} \\ \operatorname{Var}(X) =& {{ r (1-p) } \over { p^{2} }}\end{align*} $$

설명

음이항 분포는 일어날 확률이 $p$ 인 어떤 사건이 $r$ 번 일어날 때까지의 횟수에 관심이 있다. 예를 들어 동전을 던져서 앞면이 두 번 나오려면 몇 번 정도 던져야할지를 생각해보자. 앞면이 나올 확률이 $50%$이므로 앞면이 한 번 나오려면 두 번 정도 던지면 되겠고, 그게 한 번 더 반복되어야 하므로 그 기댓값은 $4$ 라고 짐작할 수 있을 것이다.

직관적으로 봤을 때, 음이항분포는 기하 분포에서 횟수 $r$ 을 일반화시킨 분포다. 실제로 사건이 일어나는 횟수가 한 번이면, 즉 $r = 1$ 이면 정확히 기하분포와 같아진다.

명명

음이항 분포라고 부르는 이유는 확률질량함수의 모양이 음이항 계수와 관계가 있기 때문이다.

정리

기하분포의 일반화

  • [b]: $Y = X_{1} + \cdots + X_{r}$ 이고 $X_{i} \overset{\text{iid}}{\sim} \text{Geo}(p)$ 면 $Y \sim \text{NB}(r,p)$

증명

[1]

음이항 계수: $$ (-1)^{k} \binom{-r}{k} = \binom{r + k - 1}{ k } $$

$$ \begin{align*} m(t) =& \sum_{x=0}^{\infty} e^{tx} p(x) \\ =& \sum_{x=0}^{\infty} e^{tx} \binom{r+x-1}{x} p^{r} (1-p)^{x} \\ =& p^{r}\sum_{x=0}^{\infty} \binom{-r}{x} (-1)^{x} \left[ (1-p) e^{t} \right]^{x} \\ =& p^{r}\sum_{x=0}^{\infty} \binom{-r}{x} \left[ - (1-p) e^{t} \right]^{x} \end{align*} $$

이항 급수: $|x| < 1$ 이면 $\alpha \in \mathbb{C}$ 에 대해 $\displaystyle (1 + x )^{\alpha} = \sum_{k=0}^{\infty} \binom{\alpha}{k} x^{k}$

이항 급수에 따라 $\displaystyle \sum_{x=0}^{\infty} \binom{-r}{x} \left[ - (1-p) e^{t} \right]^{x} = \left[ 1 - (1-p) e^{t} \right]^{-r}$ 이므로 $$ m(t) = \left[ {{ p } \over { 1 - (1-p) e^{t} }} \right]^{r} \qquad , t < -\log (1-P) $$

[2]

기하분포의 일반화라는 점을 이용한다.

[b]

기하 분포의 확률 질량 함수가 $p(x) = p (1-p)^{x} \qquad,x=0,1,2,\cdots$ 로 정의 될 때 그 적률 생성 함수는 다음과 같다. $$ m(t) = p \left( 1 - (1-p) e^{t} \right)^{-1} $$ 상호 독립인 확률 변수 $X_1, X_2, \cdots , X_r$ 이 $\text{Geo} (p)$ 를 따르므로 $Y$ 의 적률 생성 함수는 $$ \begin{align*} M_Y(t) =& E(e^{Yt}) \\ =& E(e^{(X_1+X_2+\cdots+X_r)t}) \\ =& E(e^{X_1 t}) E(e^{X_2 t}) \cdots E(e^{X_r t}) \\ =& \prod_{i=1}^r p { (1 - (1-p) e^t ) }^{-1} \\ =& p^r \left\{ (1 - (1-p) e^t ) \right\}^{-r} \end{align*} $$ 이는 음이항 분포 $\text{NB}(r,p)$ 의 적률 생성 함수와 같으므로 $Y \sim \text{NB}(r,p)$

코드

다음은 음이항분포의 확률질량함수를 움짤로 보여주는 줄리아 코드다.

@time using LaTeXStrings
@time using Distributions
@time using Plots

cd(@__DIR__)

x = 0:20
P = collect(0.2:0.01:0.8); append!(P, reverse(P))

animation = @animate for p ∈ P
    scatter(x, pdf.(NegativeBinomial(5, p), x),
     color = :black, markerstrokecolor = :black,
     label = "r = 5, p = $(rpad(p, 4, '0'))", size = (400,300))
    xlims!(0,20); ylims!(0,0.5); title!(L"\mathrm{pmf\,of\,NB}(5, p)")
end
gif(animation, "pmf5.gif")

animation = @animate for p ∈ P
    scatter(x, pdf.(NegativeBinomial(10, p), x),
     color = :black, markerstrokecolor = :black,
     label = "r = 10, p = $(rpad(p, 4, '0'))", size = (400,300))
    xlims!(0,20); ylims!(0,0.5); title!(L"\mathrm{pmf\,of\,NB}(10, p)")
end
gif(animation, "pmf10.gif")

  1. Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p145. ↩︎