logo

幾何分布の二つの定義が持つ違い 📂確率分布論

幾何分布の二つの定義が持つ違い

説明

幾何分布について勉強していると、教科書やブログ、ウィキで説明がちがっていることが最も困惑し、混乱する点だ。ある箇所では平均が$\displaystyle {{1} \over {p}} $と説明されているが、他の箇所では$\displaystyle {{1-p} \over {p}}$とも書かれている。

このような違いは、幾何分布を定義する方法が2つあるためである。幾何分布$\text{Geo}(p)$の確率質量関数は $$ p_{1}(x) = p(1-p)^{x-1} , x= 1,2,3,\cdots $$ または $$ p_{2}(x) = p(1-p)^{x} , x= 0,1,2,\cdots $$ で定義される。確率質量関数によって決定される期待値は、$p_{1}$を使う場合は$\displaystyle {{1} \over {p}}$となり、$p_{2}$を使う場合は$\displaystyle {{1-p} \over {p}}$になる。

確率質量関数をよく見れば、2つの定義に本質的な違いはなく、結局は$1$から数え始めるか、$0$から数え始めるかの違いだけだ。幾何分布の直感的な定義を考えると、何らかの事象が「成功」とされる場合、成功までの試行回数に関心があるかどうか、または最初の成功までの失敗回数に関心があるかの2つの視点しかない。もし1回目の試行で成功した場合、試行回数は$1$になり、失敗回数は$0$になるだろう。

また、幾何分布は無記憶性を持っているため、生存分析に利用されることが考えられる。事象を「損傷」とした場合、「損傷」せずに何回耐えられるかに関心があるだろう。このような場合は、失敗回数を数える意味がある。

最終的には、どの確率質量関数を選ぶかは、関心のある対象や便宜、慣習などによって決まるだと思う。過度に考えすぎず、ただ自分が使いたいものを使うくらいの感覚で進めよう。