logo

기하 분포 📂확률분포론

기하 분포

정의 1

pmf.gif

p(0,1]p \in (0,1] 에 대해 다음과 같은 확률 질량 함수를 가지는 이산 확률 분포 Geo(p)\text{Geo}(p)기하 분포geometric distribution라고 한다. p(x)=p(1p)x1,x=1,2,3, p(x) = p (1 - p)^{x-1} \qquad , x = 1 , 2, 3, \cdots


  • 두가지 정의가 쓰이고 있으니 수식과 정의역에 특히 주의해야한다.

기초 성질

적률 생성 함수

  • [1]: m(t)=pet1(1p)et,t<log(1p)m(t) = {{ p e^{t} } \over { 1 - (1-p) e^{t} }} \qquad , t < -\log (1-p)

평균과 분산

  • [2]: XGeo(p)X \sim \text{Geo} (p)E(X)=1pVar(X)=1pp2 \begin{align*} E(X) =& {{ 1 } \over { p }} \\ \Var(X) =& {{ 1-p } \over { p^{2} }} \end{align*}

충분통계량과 최대우도추정량

  • [3]: 랜덤샘플 X:=(X1,,Xn)Geo(p)\mathbf{X} := \left( X_{1} , \cdots , X_{n} \right) \sim \text{Geo} \left( p \right) 이 주어져 있다고 하자. pp 에 대한 충분통계량 TT최대우도추정량 p^\hat{p} 는 다음과 같다. T=k=1nXkp^=nk=1nXk \begin{align*} T =& \sum_{k=1}^{n} X_{k} \\ \hat{p} =& {{ n } \over { \sum_{k=1}^{n} X_{k} }} \end{align*}

정리

무기억성

  • [a]: XGeo(p)X \sim \text{Geo} (p)P(Xs+t,,Xs)=P(Xt) P(X \ge s+ t ,|, X \ge s) = P(X \ge t)

기하분포로의 일반화

  • [b]: Y=X1++XrY = X_{1} + \cdots + X_{r} 이고 XiiidGeo(p)X_{i} \overset{\text{iid}}{\sim} \text{Geo}(p)YNB(r,p)Y \sim \text{NB}(r,p)

설명

지수분포와의 관계

기하 분포는 확률 0<p10 < p \le 1 로 성공하느냐 실패하느냐의 시행을 몇 번만에 성공하는지에 관심을 가진다. 그 확률 질량 함수는 각각의 시행에서 확률 (1p)(1-p)x1x-1 번 실패한 끝에 확률 pp 로 마지막에 성공할 확률을 나타낸다. 이러한 성질에서 지수 분포의 이산화로 볼 수 있다.

명명

이러한 분포가 기하 분포라고 불리는 이유는 확률 질량 함수가 기하수열의 꼴을 가지고 있기 때문이다. a:=pa := p, r:=(1p)r := (1-p) 라고 두면 p(x)=arx1p(x) = a r ^{x-1} 의 익숙한 식을 얻는다. 실제로 적률 생성 함수를 구할 때도 기하 급수 공식이 등장한다.

증명

[1]

M(t)=x=1etxp(x)=x=1etxp(1p)x1=petx=1[et(1p)]x1 \begin{align*} M(t) =& \sum_{x=1}^{\infty} e^{tx} p(x) \\ =& \sum_{x=1}^{\infty} e^{tx} p (1-p)^{x-1} \\ =& p e^{t} \sum_{x=1}^{\infty} \left[ e^{t}(1-p) \right]^{x-1} \end{align*} t<log(1p) t < -\log (1-p) 일 때는 기하 급수 공식에 따라 petx=1[et(1p)]x1=pet1(1p)et p e^{t} \sum_{x=1}^{\infty} \left[ e^{t}(1-p) \right]^{x-1} = {{ p e^{t} } \over { 1 - (1-p) e^{t} }}

[2]

두가지 방법이 있다.

[3]

직접 연역한다.

[a]

조건부 확률로 연역한다.

[b]

적률생성함수로 연역한다.

코드

다음은 기하분포의 확률질량함수를 움짤로 보여주는 줄리아 코드다.

@time using LaTeXStrings
@time using Distributions
@time using Plots

cd(@__DIR__)

x = 0:20
P = collect(0.01:0.01:0.5); append!(P, reverse(P))

animation = @animate for p ∈ P
    scatter(x, pdf.(Geometric(p), x),
     color = :black, markerstrokecolor = :black,
     label = "p = $(rpad(p, 4, '0'))", size = (400,300))
    xlims!(0,20); ylims!(0,0.3); title!(L"\mathrm{pmf\,of\,Geo}(p)")
end
gif(animation, "pmf.gif")

  1. Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p145. ↩︎