幾何分布の二つの定義が持つ違い
説明
幾何分布について勉強していると、教科書やブログ、ウィキで説明がちがっていることが最も困惑し、混乱する点だ。ある箇所では平均がと説明されているが、他の箇所ではとも書かれている。
このような違いは、幾何分布を定義する方法が2つあるためである。幾何分布の確率質量関数は または で定義される。確率質量関数によって決定される期待値は、を使う場合はとなり、を使う場合はになる。
確率質量関数をよく見れば、2つの定義に本質的な違いはなく、結局はから数え始めるか、から数え始めるかの違いだけだ。幾何分布の直感的な定義を考えると、何らかの事象が「成功」とされる場合、成功までの試行回数に関心があるかどうか、または最初の成功までの失敗回数に関心があるかの2つの視点しかない。もし1回目の試行で成功した場合、試行回数はになり、失敗回数はになるだろう。
また、幾何分布は無記憶性を持っているため、生存分析に利用されることが考えられる。事象を「損傷」とした場合、「損傷」せずに何回耐えられるかに関心があるだろう。このような場合は、失敗回数を数える意味がある。
最終的には、どの確率質量関数を選ぶかは、関心のある対象や便宜、慣習などによって決まるだと思う。過度に考えすぎず、ただ自分が使いたいものを使うくらいの感覚で進めよう。