이항 분포

정의 ¹

pmf10 pmf20

$n \in \mathbb{N}$ 과 $p \in [0,1]$ 에 대해 다음과 같은 확률 질량 함수를 가지는 이산 확률 분포 $\text{Bin}(n,p)$ 를 이항 분포^{binomial distribution}라고 한다. $$ p(x) = \binom{n}{x} p^{x} (1-p)^{n-x} \qquad , x = 0 , 1, \cdots n $$

기초 성질

적률 생성 함수

[1]: $$m(t) = \left[ (1-p) + pe^{t} \right]^{n} \qquad , t \in \mathbb{R}$$

평균과 분산

[2]: $X \sim \text{Bin}(n,p)$ 면 $$ \begin{align*} E(X) =& np \\ \Var(X) =& np(1-p) \end{align*} $$

정리

이항분포의 극한분포로써 푸아송분포 유도

[a]: $X_{n} \sim B(n,p)$이라고 하자. $\mu \approx np$ 이면 $$ X_{n} \overset{D}{\to} \text{Poi} (\mu) $$

이항분포의 극한분포로써 표준정규분포 유도

[b]: $X_i \sim B(1,p)$ 이고 $Y_n = X_1 + X_2 + \cdots + X_n$ 이라고 하면 $Y_n \sim B(n,p)$ 이고 $$ { { Y_n - np } \over {\sqrt{ np(1-p) } } }\overset{D}{\to} N(0,1) $$

설명

범주 시행횟수	$1$번	$n$번
$2$개	베르누이 분포	이항 분포
$k$개	카테고리 분포	다항 분포

베르누이 분포

이항 분포는 인간이 가장 쉽게 생각할 수 있는 베르누이 시행^{bernoulli experiment}에서 시작한다. 베르누이 실행은 확률 $0 \le p \le 1$ 로 성공하느냐 실패하느냐 두 가지 결과만이 있으며, 이것을 $n$ 번으로 일반화한 것이 이항분포다. 거꾸로 베르누이 분포는 이항분포가 $n=1$ 일 때의 특수한 경우가 된다.

다항 분포

여기서 한 번 더, 성공이냐 실패냐 $2$ 가지 경우가 아니라 $k$ 가지 경우에 대해 일반화한 다변량분포 $M (n; p_{1} , \cdots , p_{k})$ 을 다항 분포^{multinomial distribution}라 한다. 그 확률 질량 함수는 다음과 같이 주어진다. $$ p(x_{1} , \cdots , x_{k}) = {{ n! } \over { x_{1} ! \cdots x_{k}! }} p_{1}^{x_{1}} \cdots p_{k}^{x_{k}} $$

증명

[1]

$$ \begin{align*} M(t) =& \sum_{x=0}^{n} e^{tx} p(x) \\ =& \sum_{x=0}^{n} e^{tx} \binom{n}{x} p^{x} (1-p)^{n-x} \\ =& \sum_{x=0}^{n} \binom{n}{x} \left( pe^{t} \right)^{x} (1-p)^{n-x} \end{align*} $$ 이항 정리에 따라 $$ \sum_{x=0}^{n} \binom{n}{x} \left( pe^{t} \right)^{x} (1-p)^{n-x} = \left[ pe^{t} + (1-p) \right]^{n} $$

■

[2]

전략: 교과과정처럼 수식적인 트릭을 써서 구해도 되지만 모처럼 적률 생성 함수도 구해놨으니 수리통계학의 이론을 써서 간단하게 유도해보자.

$M$ 의 도함수는 $$ M ' (t) = n \left[ (1-p) + pe^{t} \right]^{n-1} \left( pe^{t} \right) $$ 적률 생성 함수의 정의에서 $ E(X) = M ' (0):$ 이므로 $$ \mu := E(X) = M ' (0) = np $$ $M$ 의 이계도함수는 $$ M '' (t) = n \left[ (1-p) + pe^{t} \right]^{n-1} \left( pe^{t} \right) + n(n-1) \left[ (1-p) + pe^{t} \right]^{n-2} \left( pe^{t} \right)^{2} $$ $M '' (0) = np + n(n-1)p^{2}$ 이므로 $$ \begin{align*} \Var(X) =& E \left( X^{2} \right) - \mu^{2} \\ =& M '' (0) - (np)^{2} \\ =& np + n(n-1)p^{2} - n^{2}p^{2} \\ =& np(1-p) \end{align*} $$

■

[a]

적률생성함수로 근사시킨다.

■

[b]

중심극한정리처럼 근사시킨다.

■

코드

다음은 이항분포의 확률질량함수를 움짤로 보여주는 줄리아 코드다.

@time using LaTeXStrings
@time using Distributions
@time using Plots

cd(@__DIR__)

x = 0:20
P = collect(0.0:0.01:1.0); append!(P, reverse(P))

animation = @animate for p ∈ P
    scatter(x, pdf.(Binomial(10, p), x),
     color = :black, markerstrokecolor = :black,
     label = "n = 10, p = $(rpad(p, 4, '0'))", size = (400,300))
    xlims!(0,20); ylims!(0,0.5); title!(L"\mathrm{pmf\,of\,Bin}(10, p)")
end
gif(animation, "pmf10.gif")

animation = @animate for p ∈ P
    scatter(x, pdf.(Binomial(20, p), x),
     color = :black, markerstrokecolor = :black,
     label = "n = 20, p = $(rpad(p, 4, '0'))", size = (400,300))
    xlims!(0,20); ylims!(0,0.5); title!(L"\mathrm{pmf\,of\,Bin}(20, p)")
end
gif(animation, "pmf20.gif")

Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p142. ↩︎