統計学における符号検定
仮説検定 1
$n$ 個の ランダムサンプル が $\left\{ \left( X_{k} , Y_{k} \right) \right\}_{k=1}^{n}$ のように 順序対 として与えられているとしよう。二つの母集団 $X_{1} , \cdots , X_{n}$ と $Y_{1} , \cdots , Y_{n}$ の分布に従って $X_{k}$ が $Y_{k}$ より大きい確率を $p$ とするとき、$p$ に対する次の 仮説検定 を 符号検定sign test と呼ぶ。
- $H_{0} : p = 0.5$, 二つの母集団の分布は同じである。
- $H_{1} : p \ne 0.5$, 二つの母集団の分布は同じではない。
検定統計量
指示関数 $I$ に対して次のような 検定統計量 $T$ を定義する。 $$ T = \sum_{k=1}^{n} I \left( X_{k} > Y_{k} \right) $$ $T$ は $n$ 個の標本のうち $X_{k}$ が $Y_{k}$ より大きい場合の個数であり、帰無仮説が真であるという仮定の下で 二項分布 $B \left( n , p \right)$ に従う。
説明
符号検定は文字通り与えられた順序対の符号が正である場合の個数を数えて統計量として用いる検定であり、データが持つ制約の下で比較的自由な ノンパラメトリック 手法の中でも最小限の仮定を要求する。マン=ホイットニー検定(マン=ホイットニー検定)のような手法では二つの母集団の分布そのものを比較するのではなくそのロケーションパラメータに焦点を当てるが、符号検定は文字通りどんな奇妙な分布でも許容するように見える。
しかし、この解釈には大きな落とし穴がある。確かに分布について何の情報もないにもかかわらず二項分布を思い浮かべたという点は非常に機知に富むが、実際には母分散のみが異なる二つの正規分布 $N \left( 0 , 1 \right)$、$N \left( 0 , 2 \right)$ の場合だけ考えても符号検定はそれらを識別できない。
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p639. ↩︎