지수 분포와 푸아송 분포의 관계
정리
사건이 일어날 때 걸리는 시간 $X_{k}$ 에 대해 $X_{k} \sim \exp (\lambda)$ 이면 단위시간 당 발생하는 사건의 횟수 $N$ 에 대해 $\displaystyle N \sim \text{Poi} (\lambda)$
설명
지수 분포와 푸아송 분포의 직관적인 정의를 생각해보자. 지수분포는 어떤 사건이 발생하기까지 걸리는 시간에 관심이 있고, 푸아송분포는 단위 시간 내에 어떤 사건이 몇 번 발생하는지 관심이 있다. 어떤 사건이 일어나는 시간과 사건이 일어나는 횟수에 대해, 두 분포는 한 쪽을 고정시키고 다른 한 쪽에 관심을 가지는 것이다. 가령 $\exp (\lambda)$ 와 $\text{Poi}(\lambda)$ 의 모수를 $\lambda = 1$ 이라고 생각해보자. 지수분포를 봤을 땐 사건이 일어날 때까지 단위시간이 걸리는 것이고 포아송분포를 봤을 땐 단위시간당 사건이 한 번 일어난다고 볼 수 있다.
여기서 푸아송 분포의 $\lambda$ 가 커진다면 단위시간 당 사건의 발생 횟수가 커지는 것이고 그만큼 사건 한 번이 일어나는 시간은 짧아질 것이다. 이런 의미에서, 지수 분포의 평균 $\displaystyle {{1} \over {\lambda}}$ 와 푸아송 분포의 평균 $\lambda$ 는 모수를 표기하는 기호 $\lambda$ 를 공유하는 것이 타당하다고 볼 수 있겠다. 많은 교재에서 둘의 모수를 하필 $\lambda$ 로 표기하는데 그 이유를 이렇게 생각해보면 받아들이기 쉬울 것이다.
수식적으로는 감마분포와 지수분포가 관계를 가지고 있고 감마분포가 푸아송분포의 관계를 가지고 있으므로 지수분포와 푸아송분포도 어떠한 관계가 있음을 어렵지 않게 짐작할 수 있을 것이다.
증명
감마분포와 지수분포의 관계에 따라 $$ X_{i} \sim \exp (\lambda) \iff X_{i} \sim \Gamma (1, {{1} \over {\lambda}} ) $$ 감마분포를 따르는 $k$개의 확률변수들을 모두 더하면 $$ Y_{k} = \sum_{i=1}^{k} X_{i} \sim \Gamma (n, {{1} \over {\lambda}} ) $$ 지수분포는 무기억성을 가지고 있으므로 $Y_{i}$ 와 $Y_{j}$ 는 독립이고 $Y_{k}$ 는 단순히 $k$ 번째 사건이 일어난 시각을 나타냄을 알 수 있다. 한편 $\displaystyle Y_{k}$ 의 누적확률분포함수를 $F_{k}$ 라고 하면 $$ F_{k}(1) = 1 - \int_{1}^{\infty} { {1} \over {\Gamma (k) {{1} \over {\lambda ^ k}} }} x^{k-1} e^{-\lambda x} dx $$ 정리하면 $$ F_{k}(1) = 1 - \int_{1}^{\infty} { { \lambda^{k} } \over {\Gamma (k) }} x^{k-1} e^{-\lambda x} dx $$ $\lambda x = z$ 으로 치환하면 $\lambda dx = dz$ 이므로 $$ F_{k}(1) = 1 - \int_{\lambda}^{\infty} { { z^{k-1} e^{- z } } \over {\Gamma (k) }} dz $$ 감마분포와 푸아송 분포의 관계에 따라 $$ F_{k}(1) = 1 - \int_{\lambda}^{\infty} { { z^{k-1} e^{-z} } \over { \Gamma (k) } } dz = 1 - \sum_{y=0}^{k-1} { { {\lambda}^{y} e^{-\lambda} } \over {y!} } $$ $Y_{k}$ 는 $k$ 번째 사건이 일어난 시각이므로 단위 시간 $1$동안 사건이 정확히 $n$ 번 일어날 확률은 $Y_{n}$ 이 $1$보다 작거나 같고 $Y_{n+1}$ 이 $1$ 보다 클 확률과 같다. $$ \begin{align*} P(N = n) =& P( Y_{n} \le 1 \land Y_{n+1}>1 ) \\ =& P( Y_{n} \le 1 ) P ( Y_{n+1}>1 ) \\ =& P( Y_{n} \le 1 ) \left( 1 - P ( Y_{n+1} \le 1 ) \right) \\ =& P( Y_{n} \le 1 ) - P( Y_{n} \le 1 ) P ( Y_{n+1} \le 1 ) \\ =& P( Y_{n} \le 1 ) - P( Y_{n} \le 1 \land Y_{n+1} \le 1 ) \\ =& P( Y_{n} \le 1 ) - P( Y_{n+1} \le 1 ) \\ =& F_{n}(1) - F_{n+1}(1) \\ =& \left( 1 - \sum_{y=0}^{n-1} { { {\lambda}^{y} e^{-\lambda} } \over {y!} } \right) - \left( 1 - \sum_{y=0}^{n} { { {\lambda}^{y} e^{-\lambda} } \over {y!} } \right) \\ =& { { {\lambda}^{n} e^{-\lambda} } \over {n!} } \end{align*} $$ 이는 모수가 $\lambda$ 인 푸아송 분포의 확률 질량 함수이므로, $N \sim \text{Poi} (\lambda)$
■