logo

기하 분포의 두가지 정의가 가지는 차이점 📂확률분포론

기하 분포의 두가지 정의가 가지는 차이점

설명

기하 분포에 대해 공부하면서 가장 당황스럽고 헷갈리는 것이 교재, 블로그, 위키마다 설명이 다르다는 것이다. 어떤 곳에서는 평균이 1p\displaystyle {{1} \over {p}} 인데 다른 곳은 1pp\displaystyle {{1-p} \over {p}} 로 쓰기도 한다.

이러한 차이는 기하분포를 정의하는 방법이 두가지가 있기 때문이다. 기하분포 Geo(p)\text{Geo}(p) 의 확률질량함수는 p1(x)=p(1p)x1,x=1,2,3, p_{1}(x) = p(1-p)^{x-1} , x= 1,2,3,\cdots 혹은 p2(x)=p(1p)x,x=0,1,2, p_{2}(x) = p(1-p)^{x} , x= 0,1,2,\cdots 으로 정의된다. 기댓값은 확률질량함수에 따라 결정되어서 p1p_{1} 을 사용하면 1p\displaystyle {{1} \over {p}} 이 되고 p2p_{2} 를 사용하면 1pp\displaystyle {{1-p} \over {p}} 이 된다.

확률질량함수를 잘 살펴보면 알겠지만 두 정의에 본질적인 차이는 없고 결국 11부터 시작하냐, 00부터 시작하느냐 그 뿐이다. 기하분포의 직관적인 정의를 생각해보면 어떤 사건이 일어나는 것을 ‘성공’이라고 했을 때 성공까지의 시행 횟수에 관심이 있느냐, 성공까지 실패한 횟수에 관심이 있느냐 둘밖에 없다. 한번만에 성공했다면 시행횟수는 11일 것이고 실패횟수는 00 일 것이다.

한편 기하분포는 무기억성을 가지고 있기 때문에 생존 분석에 활용 될 수 있을 것이고, 사건이 일어나는 것을 ‘파손’이라고 한다면 우리가 관심을 가지는 것은 파손이 되지 않고 몇번이나 버티는지가 될 것이다. 이런 경우엔 위에서 말한 ‘실패’ 횟수를 세는 의미가 있다.

결국 어떤 확률질량함수를 고르는가는 관심 있는 대상과 편의성, 관습 등에 따라 결정된다고 보면 된다. 너무 어렵게 생각하지말고 그냥 자기가 쓰고 싶은 걸 쓰는구나 정도로 생각하고 넘어가도록 하자.