logo

クラスカル・ウォリス H 検定 📂統計的検定

クラスカル・ウォリス H 検定

仮説検定 1

実験計画上、$k$ 個の処理があり、各処理から $n_{j}$ 個ずつ、合計 $n = n_{1} + \cdots + n_{k}$ 個の標本を得たとする。$j = 1 , \cdots , k$ 番目の処理の標本がそれぞれ独立かつランダムに同じロケーションファミリー(ロケーションファミリー)からサンプリングされ、$j$ 番目の母集団母中央値を $\theta_{j}$ と仮定する。$\theta_{1} , \cdots , \theta_{k}$ に対する次の仮説検定クラスカル・ウォリス $H$ 検定Kruskal-Wallis $H$ testという。

  • $H_{0}$: $\theta_{1} = \cdots = \theta_{k}$
  • $H_{1}$: 少なくとも一つの $\theta_{j}$ は他の中央値と異なる。

検定統計量

検定統計量は $j$ 番目の母集団から得られた標本の順位の和rank-sum $R_{j}$ に対して次のように定義される。 $$ H = {\frac{ 12 }{ n \left( n + 1 \right) }} \sum_{j=1}^{k} {\frac{ R_{j}^{2} }{ n_{j} }} - 3 \left( n + 1 \right) $$ この検定統計量は各 $n_{j}$ が十分大きければ自由度が $k-1$ のカイ二乗分布 $\chi^{2} \left( k - 1 \right)$ に従う。

説明

クラスカル・ウォリス検定はパラメトリックな手法で言えば一元配置分散分析に対応するノンパラメトリック手法であり、$k$ 個の母集団を同時に比較するという点で、それ自体がウィルコクソンの符号順位検定の一般化である。有意水準 $\alpha$ に対して棄却域の下限 $\chi^{2}_{1-\alpha} (k-1)$ と比較して $H > \chi^{2}_{1-\alpha} (k-1)$ ならば帰無仮説を棄却し、少なくとも一つの母集団が他の母集団と異なると結論づける。

式だけを見ると検定統計量の公式は驚くほど雑然としているが、この導出過程を理解するにはかなり多くの背景知識が必要だ。以下で厳密な導出過程を示すが、直感的にはまず次のように考える。帰無仮説が成り立たない場合、各母集団から得られた順位の標本平均 $\overline{R}_{j}$ に対して $$ \sum_{j=1}^{k} \left( \overline{R}_{j} - {\frac{ n \left( n + 1 \right) }{ 2 }} \right)^{2} $$ という統計量がかなり大きくなり得る、というアイデアから始まる。各母集団の分布がどのようなものであれ同じ分布から来ているならばその順位和に大きな差は生じないはずであり、これをカイ二乗分布と結びつけることがクラスカル・ウォリス検定の核心である。

導出

ちなみに筆者は入手可能な資料をすべて調べたが、式的にきれいな導出過程は見つからなかったため、実際ほとんど全てを自分で証明した。私の知る限り、これより易しく親切な文書はこの世に存在しない。この記事が読者に大いに役立つことを願う。

一般性を失わずに、順位に同着tieがないと仮定する。


Part 1. $H$ の定義

$j = 1 , \cdots , k$ 番目の母集団から得た標本だけで計算した順位の平均を $\overline{R}_{j}$ と表し、全体の順位和を $\overline{R}$ と表す。$n_{j}$ が十分に小さくなければ、$\overline{R}_{j}$ は中心極限定理により近似的に正規分布に従う。

中心極限定理: $\left\{ X_{k} \right\}_{k=1}^{n}$ が iid確率変数で確率分布 $\left( \mu, \sigma^2 \right) $ に従うとき、$n \to \infty$ ならば $$ \sqrt{n} {{ \overline{X}_n - \mu } \over {\sigma}} \overset{D}{\to} N (0,1) $$

$$ \begin{align*} \overline{R}_{j} :=& {\frac{ R_{j} }{ n_{j} }} \\ \overline{R} :=& {\frac{ n + 1 }{ 2 }} \end{align*} $$

母平均が既知のときの偏差二乗の重合: 実験計画上、$k$ 個の処理があり、各処理から $n_{j}$ 個ずつ合計 $n = n_{1} + \cdots + n_{k}$ 個の標本を得たとする。$j = 1 , \cdots , k$ 番目の処理の標本がそれぞれ独立かつランダム正規分布 $N \left( \mu_{j} , \sigma_{j}^{2} \right)$ に従い、各正規分布の母分散が等しく $\sigma^{2} = \sigma_{1}^{2} = \cdots = \sigma_{k}^{2}$ であると仮定する。次のような偏差二乗の加重和として定義される統計量は、自由度が $(k-1)$ のカイ二乗分布に従う。 $$ \sum_{j=1}^{k} \frac{ \left( \bar{x}_{j} - \bar{x} \right)^{2} }{ \sigma^{2} / n_{j} } \sim \chi^{2} \left( k - 1 \right) $$ これは $\left( \bar{x}_{j} - \bar{x} \right)$ が正規分布に従うならば、標本そのものが正規分布でなくても成立する。

$$ \sum_{j=1}^{k} {\frac{ \left( \overline{R}_{j} - \overline{R} \right)^{2} }{ \sigma^{2} / n_{j} }} \sim \chi^{2} \left( k - 1 \right) $$ もし帰無仮説が真であれば、上のように得られる統計量はカイ二乗分布に従う。ただし実際には次のような補正因子 $(n-1)/n$ が掛かった $H$ を用いる。 $$ H = {\frac{ n-1 }{ n }} \cdot \sum_{j=1}^{k} {\frac{ \left( \overline{R}_{j} - \overline{R} \right)^{2} }{ \sigma^{2} / n_{j} }} $$ このような補正の正当化についても下で扱うので心配する必要はない。


Part 2. $H$ の展開

順位の期待値と分散: $n$ 個の連続確率変数 ▷eq45◯ が iid として与えられているとする。各サンプルの順位を ▷eq46◯ とすると、順位が従う確率分布離散一様分布 ▷eq47◯ であり、▽の期待値分散は次のとおりである。 $$ \begin{align*} E \left( R \right) =& {\frac{ n + 1 }{ 2 }} \\ \Var \left( R \right) =& {\frac{ n^{2} - 1 }{ 12 }} \end{align*} $$

$\overline{R} = (n+1)/2$ であるから、$H$ の両辺を少し簡単にして展開すると次のようになる。 $$ \begin{align*} & {\frac{ n \sigma^{2} }{ n - 1 }} H \\ =& \sum_{j=1}^{k} n_{j} \left( \overline{R}_{j} - \overline{R} \right)^{2} \\ =& \sum_{j=1}^{k} \left[ R_{j} \overline{R}_{j} - 2 R_{j} \overline{R} + n_{j} \overline{R}^{2} \right] \\ =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - 2 \overline{R} \sum_{j=1}^{k} R_{j} + \overline{R}^{2} \sum_{j=1}^{k} n_{j} \\ =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - 2 \overline{R} {\frac{ n(n+1) }{ 2 }} + \overline{R}^{2} n \\ =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - n \overline{R} \left[ (n+1) - \overline{R} \right] \\ =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - n \overline{R} \left[ 2 \overline{R} - \overline{R} \right] \\ =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - n \overline{R}^{2} \\ =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - n {\frac{ (n+1)^{2} }{ 4 }} \end{align*} $$ ここで $\sigma^{2} = (n^{2}-1)/12$ であるため、$H$ について整理すると次のようになる。

$$ \begin{align*} {\frac{ n \sigma^{2} }{ n - 1 }} H =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - n {\frac{ (n+1)^{2} }{ 4 }} \\ \implies {\frac{ n }{ n - 1 }} {\frac{ (n-1)(n+1) }{ 12 }} H =& \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - n {\frac{ (n+1)^{2} }{ 4 }} \\ \implies H =& {\frac{ 12 }{ n (n+1) }} \sum_{j=1}^{k} {\frac{ \overline{R}_{j}^{2} }{ n_{j} }} - 3 (n+1) \end{align*} $$


Part 3. 補正の正当化

本来 ▷eq53◯ がカイ二乗に従うのが正しいが、実際には理論より若干大きめになるため ▷eq54◯ を掛けて補正した ▷eq08◯ を使用した。この補正は単に適当な値を掛けるのではなく、十分大きな ▷eq44◯ に対して ▷eq57◯ であり、かつ実際に ▷eq08◯ の期待値が ▷eq39◯ となるようにモーメント法により行われる。

有限母集団の補正係数: 母分散が ▷eq60◯ の無作為標本 ▷eq61◯ が与えられているとき、全標本に対する標本平均 ▷eq62◯ の分散は ▷eq63◯ である。そのうち ▷eq64◯ 個だけを復元抽出でない抽出で抽出した標本の標本平均は次のような分散を持ち、標準誤差 ▷eq65◯ の二乗項に掛かる ▷eq66◯ を有限母集団補正係数finite population correction factorという。 $$ \Var \left( \overline{X}_{n} \right) = \text{s.e.} \left( \overline{X}_{n} \right) \cdot \text{FPC} = {\frac{ \sigma^{2} }{ n }} \cdot {\frac{ N - n }{ N - 1 }} $$

▷eq67◯ の期待値は次のとおりである。 $$ \begin{align*} & E \left( \sum_{j=1}^{k} n_{j} \left( \overline{R}_{j} - \overline{R} \right)^{2} \right) \\ =& E \left( \sum_{j=1}^{k} n_{j} \left[ \left( \overline{R}_{j}^{2} - 2 \overline{R}_{j} \overline{R} + \overline{R}^{2} \right) \right] \right) \\ =& \sum_{j=1}^{k} n_{j} \left[ E \left( \overline{R}_{j}^{2} \right) - 2 \overline{R} E \left( \overline{R}_{j} \right) + \overline{R}^{2} \right] \\ =& \sum_{j=1}^{k} n_{j} \left[ E \left( \overline{R}_{j}^{2} \right) - E \left( \overline{R}_{j} \right)^{2} \right] \\ =& \sum_{j=1}^{k} n_{j} \Var \left( \overline{R}_{j} \right) \\ =& \sum_{j=1}^{k} n_{j} {\frac{ \sigma^{2} }{ n_{j} }} {\frac{ n - n_{j} }{ n - 1 }} \\ =& \sum_{j=1}^{k} {\frac{ n^{2} - 1 }{ 12 }} {\frac{ n - n_{j} }{ n - 1 }} \\ =& {\frac{ n + 1 }{ 12 }} \sum_{j=1}^{k} \left( n - n_{j} \right) \\ =& {\frac{ n + 1 }{ 12 }} \left( n k - n \right) \end{align*} $$ これを ▷eq53◯ の期待値として整理すると次のようになる。 $$ {\frac{ 1 }{ \sigma^{2} }} E \left( \sum n_{j} \left( \overline{R}_{j} - \overline{R} \right)^{2} \right) = {\frac{ 12 }{ n^{2} - 1 }} {\frac{ n + 1 }{ 12 }} n \left( k - 1 \right) = {\frac{ n }{ n - 1 }} \left( k - 1 \right) $$

カイ二乗分布の平均と分散: ▷eq69◯ ならば $$ \begin{align*} E(X) =& r \\ \Var (X) =& 2r \end{align*} $$

十分な数の標本に対してカイ二乗分布 ▷eq70◯ に従う ▷eq08◯ の期待値は次のように正確に ▷eq39◯ である。 $$ E \left( H \right) = E \left( {\frac{ n-1 }{ n }} \cdot \sum_{j=1}^{k} {\frac{ \left( \overline{R}_{j} - \overline{R} \right)^{2} }{ \sigma^{2} / n_{j} }} \right) = k -1 $$

関連項目

実験計画パラメトリック手法ノンパラメトリック手法
完全ランダム化計画一元配置分散分析クラスカル・ウォリス $H$ 検定
ランダム化ブロック計画二元配置分散分析フリードマン $F_{r}$ 検定

  1. Kruskal, W. H., & Wallis, W. A. (1952). Use of Ranks in One-Criterion Variance Analysis. Journal of the American Statistical Association, 47(260), 583–621. https://doi.org/10.2307/2280779 https://medstatistic.ru/articles/Kruskal%20and%20Wallis%201952.pdf ↩︎