logo

一元配置分散分析 📂統計的検定

一元配置分散分析

仮説検定 1

実験設計 上 $k$ 個の処理がある場合、それぞれの処理から $n_{j}$ 個ずつ合計で $n = n_{1} + \cdots + n_{k}$ 個の標本を得たとする。$j = 1 , \cdots , k$ 番目の処理の標本がそれぞれ独立でランダムに 正規分布 $N \left( \mu_{j} , \sigma_{j}^{2} \right)$ に従い、それぞれの正規分布の 母分散が等しいと仮定して $\sigma^{2} = \sigma_{1}^{2} = \cdots = \sigma_{k}^{2}$ とする。集団間の 母平均を比較する 分散分析 である 一元配置分散分析one-way ANOVAにおいて、仮説検定 は次の通りである。

  • $H_{0}$: $\mu_{1} = \cdots = \mu_{k}$
  • $H_{1}$: 少なくとも一つの $\mu_{j}$ は他の母平均と異なる。

検定統計量

完全無作為化設計 下で アノバテーブル が与えられているとする。

SourcedfSSMSF
Treatments$k-1$SSTMSTMST/MSE
Error$n-k$SSEMSE
Total$n-1$TSS

検定統計量 は次の通りである。 $$ F = {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST} / (k - 1) }{ \text{SSE} / (n - k) }} $$ この検定統計量は、帰無仮説が真であるという仮定のもとで、自由度が $(k-1), (n-k)$ である F-分布 $F \left( k - 1 , n - k \right)$ に従う。

説明

処理別の平均を $\bar{x}_{j} := \sum_{i} x_{ij} / n_{j}$ とし、全体の平均を $\bar{x} := \sum_{ij} x_{ij} / n$ とする。 $$ \begin{align*} \text{SST} =& \sum_{j=1}^{k} n_{j} \left( \bar{x}_{j} - \bar{x} \right)^{2} \\ \text{SSE} =& \left( n_{1} - 1 \right) s_{1}^{2} + \cdots + \left( n_{k} - 1 \right) s_{k}^{2} \\ \text{MST} =& {\frac{ \text{SST} }{ k - 1 }} \\ \text{MSE} =& {\frac{ \text{SSE} }{ n - k }} \\ F =& {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST}/ (k - 1) }{ \text{SSE} / (n - k) }} \end{align*} $$ 検定統計量の導出そのものは 分散分析におけるF-検定 を参照すること。

例示

一元配置分散分析は、処理による母平均の差異に関心があるときに使用される。韓国のK-POPエンターテイメント会社STARSHIPからデビューした3つのガールグループの身長データを基にして、完全無作為化設計 下で分析してみよう。帰無仮説は三つのグループの平均身長が等しいことであり、対立仮説は少なくとも一つのグループの平均身長が異なることである。

  • シスタ(SISTAR): {ボラ: 164cm, ヒョリン: 163cm, ソユ: 168cm, ダソム: 167cm}
  • ウジュソニョ(WJSN): {ソラ: 165cm, ボナ: 163cm, エクシ: 166cm, スビン: 156cm, ルダ: 158cm, ダウォン: 167cm, ウンソ: 170cm, ヨラム: 161cm, ダヨン: 161cm, ヨンジョン: 166cm}
  • アイヴ(IVE): {ユジン: 173cm, ガウル: 164cm, レイ: 169cm, ウォニョン: 173cm, リズ: 171cm, イソ: 165cm}
  • 2025年にデビューしたキキ(KiiiKiii)の身長は未公開である。
SISTARWJSNIVE
164165173
163163164
168166169
167156173
158171
167165
170
161
161
166

全体の平均身長は165.5であり、グループ別の平均身長はSISTAR 165.5cm、WJSN 163.3cm、IVE 169.2cmである。

もちろん一見してもIVEの平均身長が最も高いことがわかるが、これが統計的に有意な差であるかを述べるには、アノバテーブルを埋めながらF-検定を行う必要がある。各メンバー数の総和はサンプルサイズ $n = 4 + 10 + 6 = 20$ であり、グループ数は $k = 3$ である。

SourcedfSSMSF
Treatments$2$SSTSST/$2$MST/MSE
Error$17$SSESSE/$17$
Total$19$TSS

$$ \begin{align*} \text{SST} =& 4 \cdot (165.5 - 165.5)^{2} + 10 \cdot (163.3 - 165.5)^{2} + 6 \cdot (169.2 - 165.5)^{2} &= 129.1 \\ \text{SSE} =& 3 \cdot 17 + 9 \cdot 168.1 + 5 \cdot 76.8 &= 261.9 \\ F =& {\frac{ 129.1 / 2 }{ 261.9 / 17 }} = {\frac{ 64.5 }{ 15.4 }} &= 4.19 \end{align*} $$

もし 有意水準 が $\alpha = 5 \%$ であるなら、棄却域の下限は $F_{2,17} (0.05) = 3.59$ であり $F = 4.19 > 3.59 = F_{2,17} (0.05)$ なので、帰無仮説は棄却される。つまり、少なくとも一つのグループの平均身長が他のグループと異なる。

検算

以上の結果はExcelexcelを通じて再現することが可能である。

alt text

参考

実験設計母数的手法非母数的手法
完全無作為化設計一元配置分散分析クラスカル・ウォリス $H$ 検定
無作為ブロック設計二元配置分散分析フリードマン $F_{r}$ 検定

  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p455. ↩︎