logo

一元配置分散分析 📂統計的検定

一元配置分散分析

仮説検定 1

実験設計kk 個の処理がある場合、それぞれの処理から njn_{j} 個ずつ合計で n=n1++nkn = n_{1} + \cdots + n_{k} 個の標本を得たとする。j=1,,kj = 1 , \cdots , k 番目の処理の標本がそれぞれ独立でランダムに 正規分布 N(μj,σj2)N \left( \mu_{j} , \sigma_{j}^{2} \right) に従い、それぞれの正規分布の 母分散が等しいと仮定して σ2=σ12==σk2\sigma^{2} = \sigma_{1}^{2} = \cdots = \sigma_{k}^{2} とする。集団間の 母平均を比較する 分散分析 である 一元配置分散分析one-way ANOVAにおいて、仮説検定 は次の通りである。

  • H0H_{0}: μ1==μk\mu_{1} = \cdots = \mu_{k}
  • H1H_{1}: 少なくとも一つの μj\mu_{j} は他の母平均と異なる。

検定統計量

完全無作為化設計 下で アノバテーブル が与えられているとする。

SourcedfSSMSF
Treatmentsk1k-1SSTMSTMST/MSE
Errornkn-kSSEMSE
Totaln1n-1TSS

検定統計量 は次の通りである。 F=MSTMSE=SST/(k1)SSE/(nk) F = {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST} / (k - 1) }{ \text{SSE} / (n - k) }} この検定統計量は、帰無仮説が真であるという仮定のもとで、自由度が (k1),(nk)(k-1), (n-k) である F-分布 F(k1,nk)F \left( k - 1 , n - k \right) に従う。

説明

処理別の平均を xˉj:=ixij/nj\bar{x}_{j} := \sum_{i} x_{ij} / n_{j} とし、全体の平均を xˉ:=ijxij/n\bar{x} := \sum_{ij} x_{ij} / n とする。 SST=j=1knj(xˉjxˉ)2SSE=(n11)s12++(nk1)sk2MST=SSTk1MSE=SSEnkF=MSTMSE=SST/(k1)SSE/(nk) \begin{align*} \text{SST} =& \sum_{j=1}^{k} n_{j} \left( \bar{x}_{j} - \bar{x} \right)^{2} \\ \text{SSE} =& \left( n_{1} - 1 \right) s_{1}^{2} + \cdots + \left( n_{k} - 1 \right) s_{k}^{2} \\ \text{MST} =& {\frac{ \text{SST} }{ k - 1 }} \\ \text{MSE} =& {\frac{ \text{SSE} }{ n - k }} \\ F =& {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST}/ (k - 1) }{ \text{SSE} / (n - k) }} \end{align*} 検定統計量の導出そのものは 分散分析におけるF-検定 を参照すること。

例示

一元配置分散分析は、処理による母平均の差異に関心があるときに使用される。韓国のK-POPエンターテイメント会社STARSHIPからデビューした3つのガールグループの身長データを基にして、完全無作為化設計 下で分析してみよう。帰無仮説は三つのグループの平均身長が等しいことであり、対立仮説は少なくとも一つのグループの平均身長が異なることである。

  • シスタ(SISTAR): {ボラ: 164cm, ヒョリン: 163cm, ソユ: 168cm, ダソム: 167cm}
  • ウジュソニョ(WJSN): {ソラ: 165cm, ボナ: 163cm, エクシ: 166cm, スビン: 156cm, ルダ: 158cm, ダウォン: 167cm, ウンソ: 170cm, ヨラム: 161cm, ダヨン: 161cm, ヨンジョン: 166cm}
  • アイヴ(IVE): {ユジン: 173cm, ガウル: 164cm, レイ: 169cm, ウォニョン: 173cm, リズ: 171cm, イソ: 165cm}
  • 2025年にデビューしたキキ(KiiiKiii)の身長は未公開である。
SISTARWJSNIVE
164165173
163163164
168166169
167156173
158171
167165
170
161
161
166

全体の平均身長は165.5であり、グループ別の平均身長はSISTAR 165.5cm、WJSN 163.3cm、IVE 169.2cmである。

もちろん一見してもIVEの平均身長が最も高いことがわかるが、これが統計的に有意な差であるかを述べるには、アノバテーブルを埋めながらF-検定を行う必要がある。各メンバー数の総和はサンプルサイズ n=4+10+6=20n = 4 + 10 + 6 = 20 であり、グループ数は k=3k = 3 である。

SourcedfSSMSF
Treatments22SSTSST/22MST/MSE
Error1717SSESSE/1717
Total1919TSS

SST=4(165.5165.5)2+10(163.3165.5)2+6(169.2165.5)2=129.1SSE=317+9168.1+576.8=261.9F=129.1/2261.9/17=64.515.4=4.19 \begin{align*} \text{SST} =& 4 \cdot (165.5 - 165.5)^{2} + 10 \cdot (163.3 - 165.5)^{2} + 6 \cdot (169.2 - 165.5)^{2} &= 129.1 \\ \text{SSE} =& 3 \cdot 17 + 9 \cdot 168.1 + 5 \cdot 76.8 &= 261.9 \\ F =& {\frac{ 129.1 / 2 }{ 261.9 / 17 }} = {\frac{ 64.5 }{ 15.4 }} &= 4.19 \end{align*}

もし 有意水準α=5%\alpha = 5 \% であるなら、棄却域の下限は F2,17(0.05)=3.59F_{2,17} (0.05) = 3.59 であり F=4.19>3.59=F2,17(0.05)F = 4.19 > 3.59 = F_{2,17} (0.05) なので、帰無仮説は棄却される。つまり、少なくとも一つのグループの平均身長が他のグループと異なる。

検算

以上の結果はExcelexcelを通じて再現することが可能である。

alt text

参考

実験設計母数的手法非母数的手法
完全無作為化設計一元配置分散分析クラスカル・ウォリス HH 検定
無作為ブロック設計二元配置分散分析フリードマン FrF_{r} 検定

  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p455. ↩︎