logo

幾何分布の二つの定義が持つ違い 📂確率分布論

幾何分布の二つの定義が持つ違い

説明

幾何分布について勉強していると、教科書やブログ、ウィキで説明がちがっていることが最も困惑し、混乱する点だ。ある箇所では平均が1p\displaystyle {{1} \over {p}} と説明されているが、他の箇所では1pp\displaystyle {{1-p} \over {p}}とも書かれている。

このような違いは、幾何分布を定義する方法が2つあるためである。幾何分布Geo(p)\text{Geo}(p)の確率質量関数は p1(x)=p(1p)x1,x=1,2,3, p_{1}(x) = p(1-p)^{x-1} , x= 1,2,3,\cdots または p2(x)=p(1p)x,x=0,1,2, p_{2}(x) = p(1-p)^{x} , x= 0,1,2,\cdots で定義される。確率質量関数によって決定される期待値は、p1p_{1}を使う場合は1p\displaystyle {{1} \over {p}}となり、p2p_{2}を使う場合は1pp\displaystyle {{1-p} \over {p}}になる。

確率質量関数をよく見れば、2つの定義に本質的な違いはなく、結局は11から数え始めるか、00から数え始めるかの違いだけだ。幾何分布の直感的な定義を考えると、何らかの事象が「成功」とされる場合、成功までの試行回数に関心があるかどうか、または最初の成功までの失敗回数に関心があるかの2つの視点しかない。もし1回目の試行で成功した場合、試行回数は11になり、失敗回数は00になるだろう。

また、幾何分布は無記憶性を持っているため、生存分析に利用されることが考えられる。事象を「損傷」とした場合、「損傷」せずに何回耐えられるかに関心があるだろう。このような場合は、失敗回数を数える意味がある。

最終的には、どの確率質量関数を選ぶかは、関心のある対象や便宜、慣習などによって決まるだと思う。過度に考えすぎず、ただ自分が使いたいものを使うくらいの感覚で進めよう。