仮説検定の検定力関数
定義 1
仮説検定: $$ \begin{align*} H_{0} :& \theta \in \Theta_{0} \\ H_{1} :& \theta \in \Theta_{0}^{c} \end{align*} $$
このような仮説検定が与えられていて、$\alpha \in [0,1]$ とする。
- パラメータ $\theta$ に対して、棄却域が $R$ の関数 $\beta (\theta) := P_{\theta} \left( \mathbf{X} \in \mathbb{R} \right)$ を 検定力関数power functionという。
- $\sup_{\theta \in \Theta_{0}} \beta (\theta) = \alpha$ の場合、与えられた仮説検定を サイズsize $\alpha$ の仮説検定という。
- $\sup_{\theta \in \Theta_{0}} \beta (\theta) \le \alpha$ の場合、与えられた仮説検定を レベルlevel $\alpha$ の仮説検定という。
説明
パワー?
数学でパワーと言えば、冪乗 pow
や冪を覆う、べき字を使って冪関数 $f(x) = x^{-\alpha}$ と言っていることが多いけど、統計学の文脈では、ただ仮説検定の検定する力powerと考えればいい。
検定力?
$\beta$ は確率 $P_{\theta}$ を通じて定義されるので、当然その値域は $[0,1]$ の部分集合だ。$\beta (\theta)$ の値が大きいということ―検定力、検定する力が強いということは、帰無仮説を棄却する力のことだ。対立仮説を棄却しても検定は検定だろうか?という疑問が生じるかもしれないが、本来どんな仮説検定でも、帰無仮説を基準に話すことが多いし、$R$ が帰無仮説の棄却域なので、検定とは帰無仮説が棄却されるか否かだけを気にすればいいのだ。
この検定力関数を通じて仮説検定の良し悪しを評価する。もっといい検定方法があれば、それを より強力なmore Powerfulと言うが、ここでの表現から、一般の数学のPowerと違って、本当に力を意味していることがわかる。数理統計学の観点から、どんな仮説検定が合理的か、効率的かを考えるのはとても自然な動機だ。
ただ、単に検定力そのものを良し悪しの指標とするわけにはいかない。例えば、どんなサンプルが入ってきても帰無仮説を棄却してしまう $\beta (\theta) = 1 = 100 \%$ を考えてみれば、検定力自体はとても強いが、強力すぎて第一種の過誤(帰無仮説が真の場合に棄却してしまう過誤)を全く捕らえることができない。
サイズとレベル
通常はサイズとレベルという言葉を区別せずに使うことが多いが、定義された場合、自然にレベル $\alpha$ テストの集合がサイズ $\alpha$ テストの集合を含む。この違いを細かく考察して研究する際は、用語を厳密に区別して使うべきだ。
$\alpha$ の意味は?サイズであれレベルであれ、$\alpha$ が高いとは、帰無仮説が真のときに棄却される確率が大きいパラメータがあるということだ。$\alpha$ が大きければ大きいほど、寛容に帰無仮説を棄却し、もし$\alpha$ がとても小さければ、非常に保守的な検定となる。このような違いは棄却域によって生じる。一方で レベルlevelとこの説明で 有意水準critical levelが頭に浮かぶのは自然だけど、結局は別の話で、無理に結びつける必要もなく、事実結びつけてはいけない。概念的に受け入れよう。
例: 正規分布
$$ \begin{align*} H_{0} :& \theta \le \theta_{0} \\ H_{1} :& \theta > \theta_{0} \end{align*} $$ 分散が既知の正規分布 $N \left( \theta , \sigma^{2} \right)$ のランダムサンプル $X_{1} , \cdots , X_{n}$ に対する上記のような仮説検定を考えると、zスコアがある定数 $c$ よりも大きければ、帰無仮説を棄却できるだろう。検定力関数 $\beta$ は、$\displaystyle {{ \bar{X} - \theta_{0} } \over { \sigma / \sqrt{n} }}$ がある確率 $P$ を$\theta$ に関する式に変換することで求めることができる。 $$ \begin{align*} \beta \left( \theta \right) =& P_{\theta} \left( {{ \bar{X} - \theta_{0} } \over { \sigma / \sqrt{n} }} > c \right) \\ =& P_{\theta} \left( {{ \bar{X} - \theta } \over { \sigma / \sqrt{n} }} > c + {{ \theta_{0} - \theta } \over { \sigma / \sqrt{n} }} \right) \\ =& P_{\theta} \left( Z > c + {{ \theta_{0} - \theta } \over { \sigma / \sqrt{n} }} \right) \end{align*} $$ ここで、$\displaystyle Z := {{ \bar{X} - \theta_{0} } \over { \sigma / \sqrt{n} }}$ は標準正規分布に従う確率変数だ。
Casella. (2001). Statistical Inference(2nd Edition): p383, 385. ↩︎