信用区間と信頼区間の違い
定理
信用区間と信頼区間の違いは、本質的にベイジアンとフリークエンティストの違いとみなせる。
- 信頼区間(フリークエンティスト): パラメーターは固定された定数で、信用区間がランダムに求められる。
- 信用区間(ベイジアン): パラメーターも変数として分布を持ち、信用区間も事後分布で求められる。
信頼区間
古典統計学では、あるパラメーター に対する 信頼区間 の意味は、同じ方法で作られた信頼区間 個があった場合、その中で 個くらいがを満たすということだ。式で簡単に表すとだが、常識とは異なり、この解釈は非常に難解だ。同じ式でも、次のように異なるニュアンスで読める。
- がに含まれる確率はだ。(X)
- がを含む確率はだ。(O)
もちろん、上記の2文は同じ意味だが、読む人は文字自体ではなく、ニュアンスの違いを感じ取る必要がある。つまり、が信頼区間 に含まれる確率がではなく、信頼区間を作る過程において、の信頼区間 の中にを含む信頼区間が全体で程度あるということだ。
私たちが知りたいパラメーター 自体は、分布を知ることのできない定数であり、代わりに信頼区間の上限と下限であるはその分布を知っているため、であってもである場合を考えることができる。この微妙な違いのために、信頼区間は私たちの直感と完全に一致しない。だから、こうした常識的で簡単な概念を説明するにも、いくつかを作るとそのうちのいくつかは含まれるのかという抽象的な説明が必要になる。
そもそもを基準にしてみると、について定義された分布がないため、という表現自体が意味をなさない。だれかがの分布も教えずにの値がいくつかと尋ねたら、かなり戸惑うだろうが、信頼区間に対する誤った解釈がまさにこれと同じだ。
フリークエンティストの観点からパラメーター は変わらない定数として存在し、サンプルによって変わるのは信頼区間そのものだ。まるで現在のサンプルが母集団と似ていると仮定するように、一つの信頼区間を作り、この信頼区間がまだ作られていない残りの信頼区間と似ていると見るわけだ。
信用区間
一方で、信用区間はそもそもに対する確率として定義される。それが可能なのは、パラメーター に対して事後分布を適切に仮定するからだ。これは統計学を学ぶ学生が概念的に受け入れてきた信頼/信用区間の定義と直感的に一致する。
ベイジアンはまだ得ていないサンプルなど気にしない。それは事後分布に関する仮定と、これまでに得たサンプルだけを見て出された最善の答えに過ぎない。したがって、個の信用区間を作ったなら、そのうち程度はパラメーター がに属しているという稚拙な説明は必要ない。