負の二項分布

定義 ¹

pmf10 pmf20

$r \in \mathbb{N}$ と $p \in (0,1]$ に基づいて、次の確率質量関数を持つ離散確率分布 $\text{NB}(r,p)$ を負の二項分布^{negative Binomial distribution}っていう。 $$ p(x) = \binom{r+x-1}{x-1} p^{r}(1-p)^{x} \qquad, x = 0,1,2,\cdots $$

基本的な性質

モーメント生成関数

[1]: $$m(t) = \left[ {{ p } \over { 1 - (1-p) e^{t} }} \right]^{r} \qquad , t < -\log (1-P)$$

平均と分散

[2]: $X \sim \text{NB}(r, p)$ の場合 $$ \begin{align*} E(X) =& {{ r (1-p) } \over { p }} \\ \Var(X) =& {{ r (1-p) } \over { p^{2} }}\end{align*} $$

説明

負の二項分布は、確率 $p$ のある事象が $r$ 回発生するまでの試行回数に関心がある。例えば、コインを投げて表が２回出るまでに何回投げなければならないかを考えてみよう。表が出る確率が $50%$ なので、表が１回出るには２回投げればいいし、それがもう１回繰り返されなければならないので、その期待値は $4$ だと推測できる。

直感的に、負の二項分布は試行回数 $r$ を一般化した幾何分布だと見ることができる。実際、事象が発生する回数が１回、つまり $r = 1$ の場合は、正確に幾何分布と同じになる。

命名の理由

確率質量関数の形が負の二項係数と関連があるため、負の二項分布と呼ばれる。

定理

幾何分布の一般化

[b]: $Y = X_{1} + \cdots + X_{r}$ で、$X_{i} \overset{\text{iid}}{\sim} \text{Geo}(p)$ の場合、$Y \sim \text{NB}(r,p)$

証明

[1]

負の二項係数: $$ (-1)^{k} \binom{-r}{k} = \binom{r + k - 1}{ k } $$

$$ \begin{align*} m(t) =& \sum_{x=0}^{\infty} e^{tx} p(x) \\ =& \sum_{x=0}^{\infty} e^{tx} \binom{r+x-1}{x} p^{r} (1-p)^{x} \\ =& p^{r}\sum_{x=0}^{\infty} \binom{-r}{x} (-1)^{x} \left[ (1-p) e^{t} \right]^{x} \\ =& p^{r}\sum_{x=0}^{\infty} \binom{-r}{x} \left[ - (1-p) e^{t} \right]^{x} \end{align*} $$

二項級数: $|x| < 1$ のとき、$\alpha \in \mathbb{C}$ に対して $\displaystyle (1 + x )^{\alpha} = \sum_{k=0}^{\infty} \binom{\alpha}{k} x^{k}$

二項級数によると、$\displaystyle \sum_{x=0}^{\infty} \binom{-r}{x} \left[ - (1-p) e^{t} \right]^{x} = \left[ 1 - (1-p) e^{t} \right]^{-r}$ なので $$ m(t) = \left[ {{ p } \over { 1 - (1-p) e^{t} }} \right]^{r} \qquad , t < -\log (1-P) $$

■

[2]

幾何分布の一般化という点を利用。

■

[b]

幾何分布の確率質量関数が $p(x) = p (1-p)^{x} \qquad,x=0,1,2,\cdots$ で定義されるとき、そのモーメント生成関数は以下の通りです。 $$ m(t) = p \left( 1 - (1-p) e^{t} \right)^{-1} $$ 互いに独立な確率変数 $X_1, X_2, \cdots , X_r$ が $\text{Geo} (p)$ に従うので、$Y$ のモーメント生成関数は $$ \begin{align*} M_Y(t) =& E(e^{Yt}) \\ =& E(e^{(X_1+X_2+\cdots+X_r)t}) \\ =& E(e^{X_1 t}) E(e^{X_2 t}) \cdots E(e^{X_r t}) \\ =& \prod_{i=1}^r p { (1 - (1-p) e^t ) }^{-1} \\ =& p^r \left\{ (1 - (1-p) e^t ) \right\}^{-r} \end{align*} $$ これは負の二項分布 $\text{NB}(r,p)$ のモーメント生成関数と同じなので、$Y \sim \text{NB}(r,p)$

■

コード

以下は、負の二項分布の確率質量関数をGIFで示すJuliaのコードです。

@time using LaTeXStrings
@time using Distributions
@time using Plots

cd(@__DIR__)

x = 0:20
P = collect(0.2:0.01:0.8); append!(P, reverse(P))

animation = @animate for p ∈ P
    scatter(x, pdf.(NegativeBinomial(5, p), x),
     color = :black, markerstrokecolor = :black,
     label = "r = 5, p = $(rpad(p, 4, '0'))", size = (400,300))
    xlims!(0,20); ylims!(0,0.5); title!(L"\mathrm{pmf\,of\,NB}(5, p)")
end
gif(animation, "pmf5.gif")

animation = @animate for p ∈ P
    scatter(x, pdf.(NegativeBinomial(10, p), x),
     color = :black, markerstrokecolor = :black,
     label = "r = 10, p = $(rpad(p, 4, '0'))", size = (400,300))
    xlims!(0,20); ylims!(0,0.5); title!(L"\mathrm{pmf\,of\,NB}(10, p)")
end
gif(animation, "pmf10.gif")

Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p145. ↩︎