信頼区間
定義 1
パラメータ空間 $\Theta$ の部分集合 $C \subset \Theta$ が、有意水準 $\alpha$ に対して $P ( \theta \in C | y ) \ge 1 - \alpha$ を満たすとき、$C$ をデータ$y$が与えられた時の$\theta$に対する$100(1 - \alpha) % $信頼区間credible Intervalという。
説明
ベイズ推定における区間推定とは、パラメータ $\theta$ を含む可能性が高い区間を見つけることである。このようにして見つかる「信頼区間」とは、頻繁度主義者にとっての信頼区間に対応する概念である。
式の理解
式は少し難しく書かれているが、分解してみよう。積分形で表せば、 $$ P ( \theta \in C | y ) = \int_{ \theta \in C} p ( \theta | y) d \theta $$ 理解を助けるため、単に有意水準を$\alpha = 0.05$とした場合、 $$ \int_{ \theta \in C} p ( \theta | y) d \theta \ge 0.95 $$ $C$ を信頼区間とする。もっと馴染み深い表現に変えて$C = [a,b] $と書けば、 $$ \int_{a}^{b} p ( \theta | y) d \theta \ge 0.95 $$ である。以下の二つの図で、塗りつぶされた部分の面積が$0.95$より大きいか等しければ、この積分区間$C$は何であれ信頼区間になる。
しかし、信頼区間の長さが短いほど正確なので、条件を満たす信頼区間の中では最小のものが良い。従って、どちらかを選ばなければならない場合、右側が選ばれ、実際の推定ではもっと正確な方法を使用する。
保守的な定義
信頼区間が正確に$P ( \theta \in C | y ) = 1 - \alpha$でなく$P ( \theta \in C | y ) \ge 1 - \alpha$と定義された理由は、単に安全を期するためである。計算していると、必ずしも正確に一致させることができない場合もあるため、いっそ区間を若干広げておくほうが良い。
これを見ていると、頻繁度主義者の信頼区間と何が違うのか、なぜ新たに定義する必要があるのか疑問に思うかもしれない。しかし、微妙に見えるこの違いこそ、ベイズを魅力的にする核心要素の一つである。
김달호. (2013). R과 WinBUGS를 이용한 베이지안 통계학: p152. ↩︎