기하 분포의 두가지 정의가 가지는 차이점 📂확률분포론

기하 분포의 두가지 정의가 가지는 차이점

설명

기하 분포에 대해 공부하면서 가장 당황스럽고 헷갈리는 것이 교재, 블로그, 위키마다 설명이 다르다는 것이다. 어떤 곳에서는 평균이 $\displaystyle {{1} \over {p}}$ 인데 다른 곳은 $\displaystyle {{1-p} \over {p}}$ 로 쓰기도 한다.

이러한 차이는 기하분포를 정의하는 방법이 두가지가 있기 때문이다. 기하분포 $\text{Geo}(p)$ 의 확률질량함수는 $p_{1}(x) = p(1-p)^{x-1} , x= 1,2,3,\cdots$ 혹은 $p_{2}(x) = p(1-p)^{x} , x= 0,1,2,\cdots$ 으로 정의된다. 기댓값은 확률질량함수에 따라 결정되어서 $p_{1}$ 을 사용하면 $\displaystyle {{1} \over {p}}$ 이 되고 $p_{2}$ 를 사용하면 $\displaystyle {{1-p} \over {p}}$ 이 된다.

확률질량함수를 잘 살펴보면 알겠지만 두 정의에 본질적인 차이는 없고 결국 $1$ 부터 시작하냐, $0$ 부터 시작하느냐 그 뿐이다. 기하분포의 직관적인 정의를 생각해보면 어떤 사건이 일어나는 것을 ‘성공’이라고 했을 때 성공까지의 시행 횟수에 관심이 있느냐, 성공까지 실패한 횟수에 관심이 있느냐 둘밖에 없다. 한번만에 성공했다면 시행횟수는 $1$ 일 것이고 실패횟수는 $0$ 일 것이다.

한편 기하분포는 무기억성을 가지고 있기 때문에 생존 분석에 활용 될 수 있을 것이고, 사건이 일어나는 것을 ‘파손’이라고 한다면 우리가 관심을 가지는 것은 파손이 되지 않고 몇번이나 버티는지가 될 것이다. 이런 경우엔 위에서 말한 ‘실패’ 횟수를 세는 의미가 있다.

결국 어떤 확률질량함수를 고르는가는 관심 있는 대상과 편의성, 관습 등에 따라 결정된다고 보면 된다. 너무 어렵게 생각하지말고 그냥 자기가 쓰고 싶은 걸 쓰는구나 정도로 생각하고 넘어가도록 하자.