仮説検定の検定力関数
📂数理統計学仮説検定の検定力関数
定義
仮説検定:
H0:H1:θ∈Θ0θ∈Θ0c
このような仮説検定が与えられていて、α∈[0,1] とする。
- パラメータ θ に対して、棄却域が R の関数 β(θ):=Pθ(X∈R) を 検定力関数power functionという。
- supθ∈Θ0β(θ)=α の場合、与えられた仮説検定を サイズsize α の仮説検定という。
- supθ∈Θ0β(θ)≤α の場合、与えられた仮説検定を レベルlevel α の仮説検定という。
説明
パワー?
数学でパワーと言えば、冪乗 pow
や冪を覆う、べき字を使って冪関数 f(x)=x−α と言っていることが多いけど、統計学の文脈では、ただ仮説検定の検定する力powerと考えればいい。
検定力?
β は確率 Pθ を通じて定義されるので、当然その値域は [0,1] の部分集合だ。β(θ) の値が大きいということ―検定力、検定する力が強いということは、帰無仮説を棄却する力のことだ。対立仮説を棄却しても検定は検定だろうか?という疑問が生じるかもしれないが、本来どんな仮説検定でも、帰無仮説を基準に話すことが多いし、R が帰無仮説の棄却域なので、検定とは帰無仮説が棄却されるか否かだけを気にすればいいのだ。
この検定力関数を通じて仮説検定の良し悪しを評価する。もっといい検定方法があれば、それを より強力なmore Powerfulと言うが、ここでの表現から、一般の数学のPowerと違って、本当に力を意味していることがわかる。数理統計学の観点から、どんな仮説検定が合理的か、効率的かを考えるのはとても自然な動機だ。
ただ、単に検定力そのものを良し悪しの指標とするわけにはいかない。例えば、どんなサンプルが入ってきても帰無仮説を棄却してしまう β(θ)=1=100% を考えてみれば、検定力自体はとても強いが、強力すぎて第一種の過誤(帰無仮説が真の場合に棄却してしまう過誤)を全く捕らえることができない。
サイズとレベル
通常はサイズとレベルという言葉を区別せずに使うことが多いが、定義された場合、自然にレベル α テストの集合がサイズ α テストの集合を含む。この違いを細かく考察して研究する際は、用語を厳密に区別して使うべきだ。
α の意味は?サイズであれレベルであれ、α が高いとは、帰無仮説が真のときに棄却される確率が大きいパラメータがあるということだ。α が大きければ大きいほど、寛容に帰無仮説を棄却し、もしα がとても小さければ、非常に保守的な検定となる。このような違いは棄却域によって生じる。一方で レベルlevelとこの説明で 有意水準critical levelが頭に浮かぶのは自然だけど、結局は別の話で、無理に結びつける必要もなく、事実結びつけてはいけない。概念的に受け入れよう。
例: 正規分布
H0:H1:θ≤θ0θ>θ0
分散が既知の正規分布 N(θ,σ2) のランダムサンプル X1,⋯,Xn に対する上記のような仮説検定を考えると、zスコアがある定数 c よりも大きければ、帰無仮説を棄却できるだろう。検定力関数 β は、σ/nXˉ−θ0 がある確率 P をθ に関する式に変換することで求めることができる。
β(θ)===Pθ(σ/nXˉ−θ0>c)Pθ(σ/nXˉ−θ>c+σ/nθ0−θ)Pθ(Z>c+σ/nθ0−θ)
ここで、Z:=σ/nXˉ−θ0 は標準正規分布に従う確率変数だ。