기하 분포의 두가지 정의가 가지는 차이점 📂분포이론

기하 분포의 두가지 정의가 가지는 차이점

Two different definitions of geometric Distribution

설명

기하 분포에 대해 공부하면서 가장 당황스럽고 헷갈리는 것이 교재, 블로그, 위키마다 설명이 다르다는 것이다. 어떤 곳에서는 평균이 $\displaystyle {{1} \over {p}} $ 인데 다른 곳은 $\displaystyle {{1-p} \over {p}}$ 로 쓰기도 한다.

이러한 차이는 기하분포를 정의하는 방법이 두가지가 있기 때문이다. 기하분포 $\text{Geo}(p)$ 의 확률질량함수는 $$ p_{1}(x) = p(1-p)^{x-1} , x= 1,2,3,\cdots $$ 혹은 $$ p_{2}(x) = p(1-p)^{x} , x= 0,1,2,\cdots $$ 으로 정의된다. 기댓값은 확률질량함수에 따라 결정되어서 $p_{1}$ 을 사용하면 $\displaystyle {{1} \over {p}}$ 이 되고 $p_{2}$ 를 사용하면 $\displaystyle {{1-p} \over {p}}$ 이 된다.

확률질량함수를 잘 살펴보면 알겠지만 두 정의에 본질적인 차이는 없고 결국 $1$부터 시작하냐, $0$부터 시작하느냐 그 뿐이다. 기하분포의 직관적인 정의를 생각해보면 어떤 사건이 일어나는 것을 ‘성공’이라고 했을 때 성공까지의 시행 횟수에 관심이 있느냐, 성공까지 실패한 횟수에 관심이 있느냐 둘밖에 없다. 한번만에 성공했다면 시행횟수는 $1$일 것이고 실패횟수는 $0$ 일 것이다.

한편 기하분포는 무기억성을 가지고 있기 때문에 생존 분석에 활용 될 수 있을 것이고, 사건이 일어나는 것을 ‘파손’이라고 한다면 우리가 관심을 가지는 것은 파손이 되지 않고 몇번이나 버티는지가 될 것이다. 이런 경우엔 위에서 말한 ‘실패’ 횟수를 세는 의미가 있다.

결국 어떤 확률질량함수를 고르는가는 관심 있는 대상과 편의성, 관습 등에 따라 결정된다고 보면 된다. 너무 어렵게 생각하지말고 그냥 자기가 쓰고 싶은 걸 쓰는구나 정도로 생각하고 넘어가도록 하자.

댓글