기하 분포의 평균과 분산
공식
$X \sim \text{Geo} (p)$ 면 $$ E(X) = {{ 1 } \over { p }} \\ \operatorname{Var}(X) = {{ 1-p } \over { p^{2} }} $$
유도
기하 분포의 평균과 분산은 생각보다 쉽게 구해지지 않는다. 본 포스트에서는 유익하면서도 재미있는 두가지 증명을 소개한다.
기하 분포의 정의$p \in (0,1]$ 에 대해 다음과 같은 확률 질량 함수를 가지는 이산 확률 분포 $\text{Geo}(p)$ 를 기하 분포라고 한다. $$ p(x) = p (1 - p)^{x-1} \qquad , x = 1 , 2, 3, \cdots $$
첫번째 방법
전략: 등비 급수의 공식과 미분을 사용한다.
평균
$$ E(X)=\sum _{ x=1 }^{ \infty }{ xp { (1-p) }^{ x-1 } } $$ $\displaystyle f(p): =\sum _{ x=0 }^{ \infty }{ { (1-p) }^{ x } }$ 라 하면 $$ f(p)=\frac { 1 }{ 1-(1-p) }=\frac { 1 }{ p } $$ $p$ 에 대해 미분하면 등비 급수 공식에 따라 $$ f '(p)=-\frac { 1 }{ { p }^{ 2 } } $$ 한편 등비 급수를 그대로 미분하면 $$ f ' (p)=\sum _{ x=1 }^{ \infty }{ {-x { (1-p) }^{ x-1 } } } $$ 이기도 하므로 $$ \begin{align*} & -\frac { 1 }{ { p }^{ 2 } }=-\sum _{ x=1 }^{ \infty }{ x { (1-p) }^{ x-1 } } \\ \implies& \frac { 1 }{ p }=p\sum _{ x=1 }^{ \infty }{ x { (1-p) }^{ x-1 } } \\ \implies& \frac { 1 }{ p }=\sum _{ x=1 }^{ \infty }{ xp { (1-p) }^{ x-1 } }=E(X) \end{align*} $$ 따라서 $\displaystyle E(X)=\frac { 1 }{ p }$
■
분산
$$ V(X)=E({ X }^{ 2 })-{ {E(X)} }^{ 2 }=\sum _{ x=1 }^{ \infty }{ { x^ 2} { p { (1-p) }^{ x-1 } }-\frac { 1 }{ { p }^{ 2 } } } $$ 따라서 $\displaystyle E({ X }^{ 2 })=\sum _{ x=1 }^{ \infty }{ { x^2 }{ p { (1-p) }^{ x-1 } } }$ 만 구하면 된다.
마찬가지로 $\displaystyle f(p) :=\sum _{ x=0 }^{ \infty }{ { (1-p) }^{ x } }$라 하면 $$ f(p)=\frac { 1 }{ 1-(1-p) }=\frac { 1 }{ p } \\ f '(p) = - \frac { 1 }{ p^{2} } \\ f ''(p)=\frac { 2 }{ { p }^{ 3 } } $$ 한편 $\displaystyle f ''(p)=\sum _{ x=1 }^{ \infty }{ x(x-1) { (1-p) }^{ x-2 } }$ 이기도 하므로 $$ \begin{align*} & \frac { 2 }{ { p }^{ 3 } }=\sum _{ x=1 }^{ \infty }{ x(x-1) { (1-p) }^{ x-2 } } \\ \implies& \frac { 2 }{ { p }^{ 3 } }=\sum _{ x=1 }^{ \infty }{ { x^2 } { { (1-p) }^{ x-2 } }-\sum _{ x=1 }^{ \infty }{ x { (1-p) }^{ x-2 } } } \\ \implies& p\frac { 2 }{ { p }^{ 3 } }=p\sum _{ x=1 }^{ \infty }{ { x^2 } { { (1-p) }^{ x-2 } }-p\sum _{ x=1 }^{ \infty }{ x { (1-p) }^{ x-2 } } } \\ \implies& \frac { 2 }{ { p }^{ 2 } }=\sum _{ x=1 }^{ \infty }{ { x^2 } { p { (1-p) }^{ x-2 } }-\sum _{ x=1 }^{ \infty }{ xp { (1-p) }^{ x-2 } } } \\ \implies& \frac { 2 }{ { p }^{ 2 } }=\frac { 1 }{ 1-p }\sum _{ x=1 }^{ \infty }{ { x^2 } { p { (1-p) }^{ x-1 } }-\frac { 1 }{ 1-p }\sum _{ x=1 }^{ \infty }{ xp { (1-p) }^{ x-1 } } } \\ \implies& \frac { 2(1-p) }{ { p }^{ 2 } }=E({ X }^{ 2 })-\frac { 1 }{ p } \\ \implies& E({ X }^{ 2 })=\frac { 2-p }{ { p }^{ 2 } } \end{align*} $$ 따라서 $\displaystyle V(X)=\frac { 1-p }{ { p }^{ 2 } }$
■
두번째 방법
전략: 기하 분포의 무기억성을 쓴다. 어떻게 보면 복잡한 수식을 피하고 말로 때우는 느낌이지만, 사람에 따라서는 오히려 어렵게 느낄 수도 있다.
평균
$$ E(X)=1 \cdot P(\text{ 첫번째 시행에서 성공 })+E(Y+1)\cdot P( \text{첫번째 시행에서 실패}) $$ 기댓값의 정의에 따라 첫번째 시행이 성공한 확률과 그 때의 시행횟수인 $1$, 첫번째 시행이 실패할 확률과 이 경우의 기댓값인 $E(Y+1)$ 의 곱을 더한 것이 기댓값 $E(X)$ 가 된다. 물론 여기서 등장한 $Y$ 는 $X$ 와 마찬가지로 $\text{Geo} (p)$ 를 따른다. 첫 번째에 성공했든 말든 기하 분포는 무기억성을 가지므로 처음부터 시작하고, $Y$ 에 $1$ 을 따로 더해주는 보정을 거친 것이다. 다시 깔끔하게 적으면 다음과 같다. $$ E(X)=1\cdot p+E(Y+1)\cdot (1-p) $$ 그런데 $E(Y+1)$ 은 $E(Y+1)=E(Y)+E(1)=E(Y)+1$ 으로 나타낼 수 있고, $X \sim \text{Geo} (p)$ 이고 $Y \sim \text{Geo} (p)$ 이므로 $$ E(Y)=E(X) $$ $\displaystyle E(X)=p+{E(X)+1}(1-p)$ 를 $E(X)$ 에 대해서 정리하면 $$ E(X)=\frac { 1 }{ p } $$
■
분산
$$ \begin{align*} E({ X }^{ 2 }) =& 1\cdot p+E({ (Y+1) }^{ 2 })\cdot (1-p) \\ &=p+{E({ X }^{ 2 })+2E(X)+1}(1-p) \\ &=p+E({ X }^{ 2 })+2E(X)+1-pE({ X }^{ 2 })-2pE(X)-p \end{align*} $$ 깔끔하게 정리하면 $$ 0=2E(X)+1-pE({ X }^{ 2 })-2pE(X) $$ $2$차 적률을 이항하면 $$ \begin{align*} pE({ X }^{ 2 }) =& 2(1-p)E(X)+1 \\ &=2(1-p)\frac { 1 }{ p }+1 \\ =& \frac { 2-p }{ p } \end{align*} $$ 양변을 $p$ 로 나누면 $$ E({ X }^{ 2 })=\frac { 2-p }{ { p }^{ 2 } } $$ 따라서 $\displaystyle V(X)=\frac { 1-p }{ { p }^{ 2 } }$
■