信頼区間

定義 ¹

パラメータ空間 $\Theta$ の部分集合 $C \subset \Theta$ が、有意水準 $\alpha$ に対して $P ( \theta \in C | y ) \ge 1 - \alpha$ を満たすとき、 $C$ をデータ $y$ が与えられた時の $\theta$ に対する $100(1 - \alpha) %$ 信頼区間^{credible Interval}という。

説明

ベイズ推定における区間推定とは、パラメータ $\theta$ を含む可能性が高い区間を見つけることである。このようにして見つかる「信頼区間」とは、頻繁度主義者にとっての信頼区間に対応する概念である。

式の理解

式は少し難しく書かれているが、分解してみよう。積分形で表せば、 $P ( \theta \in C | y ) = \int_{ \theta \in C} p ( \theta | y) d \theta$ 理解を助けるため、単に有意水準を $\alpha = 0.05$ とした場合、 $\int_{ \theta \in C} p ( \theta | y) d \theta \ge 0.95$ $C$ を信頼区間とする。もっと馴染み深い表現に変えて $C = [a,b]$ と書けば、 $\int_{a}^{b} p ( \theta | y) d \theta \ge 0.95$ である。以下の二つの図で、塗りつぶされた部分の面積が $0.95$ より大きいか等しければ、この積分区間 $C$ は何であれ信頼区間になる。

しかし、信頼区間の長さが短いほど正確なので、条件を満たす信頼区間の中では最小のものが良い。従って、どちらかを選ばなければならない場合、右側が選ばれ、実際の推定ではもっと正確な方法を使用する。

$20181111\_124207.png$

保守的な定義

信頼区間が正確に $P ( \theta \in C | y ) = 1 - \alpha$ でなく $P ( \theta \in C | y ) \ge 1 - \alpha$ と定義された理由は、単に安全を期するためである。計算していると、必ずしも正確に一致させることができない場合もあるため、いっそ区間を若干広げておくほうが良い。

これを見ていると、頻繁度主義者の信頼区間と何が違うのか、なぜ新たに定義する必要があるのか疑問に思うかもしれない。しかし、微妙に見えるこの違いこそ、ベイズを魅力的にする核心要素の一つである。

김달호. (2013). R과 WinBUGS를 이용한 베이지안 통계학: p152. ↩︎