이항 분포
📂확률분포론 이항 분포 정의
n ∈ N n \in \mathbb{N} n ∈ N 과 p ∈ [ 0 , 1 ] p \in [0,1] p ∈ [ 0 , 1 ] 에 대해 다음과 같은 확률 질량 함수를 가지는 이산 확률 분포 Bin ( n , p ) \text{Bin}(n,p) Bin ( n , p ) 를 이항 분포 binomial distribution 라고 한다.
p ( x ) = ( n x ) p x ( 1 − p ) n − x , x = 0 , 1 , ⋯ n
p(x) = \binom{n}{x} p^{x} (1-p)^{n-x} \qquad , x = 0 , 1, \cdots n
p ( x ) = ( x n ) p x ( 1 − p ) n − x , x = 0 , 1 , ⋯ n
기초 성질 적률 생성 함수 [1]: m ( t ) = [ ( 1 − p ) + p e t ] n , t ∈ R m(t) = \left[ (1-p) + pe^{t} \right]^{n} \qquad , t \in \mathbb{R} m ( t ) = [ ( 1 − p ) + p e t ] n , t ∈ R [2]: X ∼ Bin ( n , p ) X \sim \text{Bin}(n,p) X ∼ Bin ( n , p ) 면
E ( X ) = n p Var ( X ) = n p ( 1 − p )
\begin{align*}
E(X) =& np
\\ \operatorname{Var}(X) =& np(1-p)
\end{align*}
E ( X ) = Var ( X ) = n p n p ( 1 − p ) 정리 [a]: X n ∼ B ( n , p ) X_{n} \sim B(n,p) X n ∼ B ( n , p ) 이라고 하자. μ ≈ n p \mu \approx np μ ≈ n p 이면
X n → D Poi ( μ )
X_{n} \overset{D}{\to} \text{Poi} (\mu)
X n → D Poi ( μ ) [b]: X i ∼ B ( 1 , p ) X_i \sim B(1,p) X i ∼ B ( 1 , p ) 이고 Y n = X 1 + X 2 + ⋯ + X n Y_n = X_1 + X_2 + \cdots + X_n Y n = X 1 + X 2 + ⋯ + X n 이라고 하면 Y n ∼ B ( n , p ) Y_n \sim B(n,p) Y n ∼ B ( n , p ) 이고
Y n − n p n p ( 1 − p ) → D N ( 0 , 1 )
{ { Y_n - np } \over {\sqrt{ np(1-p) } } }\overset{D}{\to} N(0,1)
n p ( 1 − p ) Y n − n p → D N ( 0 , 1 ) 설명 베르누이 분포 이항 분포 는 인간이 가장 쉽게 생각할 수 있는 베르누이 시행 bernoulli experiment 에서 시작한다. 베르누이 실행은 확률 0 ≤ p ≤ 1 0 \le p \le 1 0 ≤ p ≤ 1 로 성공하느냐 실패하느냐 두 가지 결과만이 있으며, 이것을 n n n 번으로 일반화한 것이 이항분포다. 거꾸로 베르누이 분포는 이항분포가 n = 1 n=1 n = 1 일 때의 특수한 경우가 된다.
다항 분포 여기서 한 번 더, 성공이냐 실패냐 2 2 2 가지 경우가 아니라 k k k 가지 경우에 대해 일반화한 다변량분포 M ( n ; p 1 , ⋯ , p k ) M (n; p_{1} , \cdots , p_{k}) M ( n ; p 1 , ⋯ , p k ) 을 다항 분포 multinomial distribution 라 한다. 그 확률 질량 함수는 다음과 같이 주어진다.
p ( x 1 , ⋯ , x k ) = n ! x 1 ! ⋯ x k ! p 1 x 1 ⋯ p k x k
p(x_{1} , \cdots , x_{k}) = {{ n! } \over { x_{1} ! \cdots x_{k}! }} p_{1}^{x_{1}} \cdots p_{k}^{x_{k}}
p ( x 1 , ⋯ , x k ) = x 1 ! ⋯ x k ! n ! p 1 x 1 ⋯ p k x k
증명 [1] M ( t ) = ∑ x = 0 n e t x p ( x ) = ∑ x = 0 n e t x ( n x ) p x ( 1 − p ) n − x = ∑ x = 0 n ( n x ) ( p e t ) x ( 1 − p ) n − x
\begin{align*}
M(t) =& \sum_{x=0}^{n} e^{tx} p(x)
\\ =& \sum_{x=0}^{n} e^{tx} \binom{n}{x} p^{x} (1-p)^{n-x}
\\ =& \sum_{x=0}^{n} \binom{n}{x} \left( pe^{t} \right)^{x} (1-p)^{n-x}
\end{align*}
M ( t ) = = = x = 0 ∑ n e t x p ( x ) x = 0 ∑ n e t x ( x n ) p x ( 1 − p ) n − x x = 0 ∑ n ( x n ) ( p e t ) x ( 1 − p ) n − x
이항 정리 에 따라
∑ x = 0 n ( n x ) ( p e t ) x ( 1 − p ) n − x = [ p e t + ( 1 − p ) ] n
\sum_{x=0}^{n} \binom{n}{x} \left( pe^{t} \right)^{x} (1-p)^{n-x} = \left[ pe^{t} + (1-p) \right]^{n}
x = 0 ∑ n ( x n ) ( p e t ) x ( 1 − p ) n − x = [ p e t + ( 1 − p ) ] n
■
[2] 전략: 교과과정처럼 수식적인 트릭을 써서 구해도 되지만 모처럼 적률 생성 함수도 구해놨으니 수리통계학의 이론을 써서 간단하게 유도해보자.
M M M 의 도함수는
M ′ ( t ) = n [ ( 1 − p ) + p e t ] n − 1 ( p e t )
M ' (t) = n \left[ (1-p) + pe^{t} \right]^{n-1} \left( pe^{t} \right)
M ′ ( t ) = n [ ( 1 − p ) + p e t ] n − 1 ( p e t )
적률 생성 함수의 정의 에서 E ( X ) = M ′ ( 0 ) : E(X) = M ' (0): E ( X ) = M ′ ( 0 ) : 이므로
μ : = E ( X ) = M ′ ( 0 ) = n p
\mu := E(X) = M ' (0) = np
μ := E ( X ) = M ′ ( 0 ) = n p
M M M 의 이계도함수는
M ′ ′ ( t ) = n [ ( 1 − p ) + p e t ] n − 1 ( p e t ) + n ( n − 1 ) [ ( 1 − p ) + p e t ] n − 2 ( p e t ) 2
M '' (t) = n \left[ (1-p) + pe^{t} \right]^{n-1} \left( pe^{t} \right) + n(n-1) \left[ (1-p) + pe^{t} \right]^{n-2} \left( pe^{t} \right)^{2}
M ′′ ( t ) = n [ ( 1 − p ) + p e t ] n − 1 ( p e t ) + n ( n − 1 ) [ ( 1 − p ) + p e t ] n − 2 ( p e t ) 2
M ′ ′ ( 0 ) = n p + n ( n − 1 ) p 2 M '' (0) = np + n(n-1)p^{2} M ′′ ( 0 ) = n p + n ( n − 1 ) p 2 이므로
Var ( X ) = E ( X 2 ) − μ 2 = M ′ ′ ( 0 ) − ( n p ) 2 = n p + n ( n − 1 ) p 2 − n 2 p 2 = n p ( 1 − p )
\begin{align*}
\operatorname{Var}(X) =& E \left( X^{2} \right) - \mu^{2}
\\ =& M '' (0) - (np)^{2}
\\ =& np + n(n-1)p^{2} - n^{2}p^{2}
\\ =& np(1-p)
\end{align*}
Var ( X ) = = = = E ( X 2 ) − μ 2 M ′′ ( 0 ) − ( n p ) 2 n p + n ( n − 1 ) p 2 − n 2 p 2 n p ( 1 − p )
■
[a] 적률생성함수로 근사시킨다.
■
[b] 중심극한정리처럼 근사시킨다.
■
코드 다음은 이항분포의 확률질량함수를 움짤로 보여주는 줄리아 코드다.
@time using LaTeXStrings
@time using Distributions
@time using Plots
cd(@__DIR__ )
x = 0 :20
P = collect(0.0 :0.01 :1.0 ); append!(P, reverse(P))
animation = @animate for p ∈ P
scatter(x, pdf.(Binomial(10 , p), x),
color = :black, markerstrokecolor = :black,
label = "n = 10, p = $(rpad(p, 4 , '0' ) )" , size = (400 ,300 ))
xlims!(0 ,20 ); ylims!(0 ,0.5 ); title!(L"\mathrm{pmf\,of\,Bin}(10, p)" )
end
gif(animation, "pmf10.gif" )
animation = @animate for p ∈ P
scatter(x, pdf.(Binomial(20 , p), x),
color = :black, markerstrokecolor = :black,
label = "n = 20, p = $(rpad(p, 4 , '0' ) )" , size = (400 ,300 ))
xlims!(0 ,20 ); ylims!(0 ,0.5 ); title!(L"\mathrm{pmf\,of\,Bin}(20, p)" )
end
gif(animation, "pmf20.gif" )