二元分散分析 (にげんぶんさんぶんせき)
仮説検定 1
実験計画 上 $k$ 個の処理と $b$ 個のブロックがあり、$n = bk$ 個のサンプルを得たとする。$j = 1 , \cdots , k$ 番目の処理のサンプルがそれぞれ独立してランダムに 正規分布 $N \left( \mu_{j} , \sigma_{j}^{2} \right)$ に従い、各正規分布の母分散が全て等しく $\sigma^{2} = \sigma_{1}^{2} = \cdots = \sigma_{k}^{2}$ であると仮定する。集団間の母平均を比較する 分散分析 の 二元分散分析two-way ANOVAにおける仮説検定は次の通りである。
- $H_{0}$: $\mu_{1} = \cdots = \mu_{k}$
- $H_{1}$: 少なくとも1つの $\mu_{j}$ は他の母平均と異なる。
検定統計量
ランダム化ブロック設計 下で ANOVA表 が次のように与えられたとする。
Source | df | SS | MS | F |
---|---|---|---|---|
Treatments | $k-1$ | SST | MST | MST/MSE |
Blocks | $b-1$ | SSB | MSB | |
Error | $(k-1)(b-1)$ | SSE | MSE | |
Total | $n-1$ | TSS |
検定統計量は次の通りである。 $$ F = {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST} / (k - 1) }{ \text{SSE} / (k - 1)(b - 1) }} $$ この検定統計量は帰無仮説が真である場合、自由度が $(k-1), (k - 1)(b - 1)$ である F-分布 $F \left( k - 1 , (k - 1)(b - 1) \right)$ に従う。
説明
処理別平均を $\bar{x}_{j} := \sum_{i} x_{ij} / n_{j}$、全体平均を $\bar{x} := \sum_{ij} x_{ij} / n$ とする。 $$ \begin{align*} \text{SST} =& \sum_{j=1}^{k} n_{j} \left( \bar{x}_{j} - \bar{x} \right)^{2} \\ \text{SSE} =& \left( n_{1} - 1 \right) s_{1}^{2} + \cdots + \left( n_{k} - 1 \right) s_{k}^{2} \\ \text{SSB} =& \sum_{i=1}^{b} \left( x_{i} - \bar{x} \right)^{2} \\ \text{MST} =& {\frac{ \text{SST} }{ k - 1 }} \\ \text{MSB} =& {\frac{ \text{SSB} }{ b - 1 }} \\ \text{MSE} =& {\frac{ \text{SSE} }{ (b-1)(k-1) }} \\ F =& {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST}/ (k - 1) }{ \text{SSE} / (b-1)(k-1) }} = {\frac{ \text{SST}}{ \text{SSE} / (b-1) }} \end{align*} $$ 検定統計量の導出そのものについては 分散分析でのF検定 を参照することとしよう。
注意事項
一つ気を付けるべきことは、二元分散分析でブロックが追加されているとはいえ、依然として主に関心が向けられるのは処理間の差にあるため $\text{MSB}$ は気にせずともよいという点である2。検定統計量 $F$ を見ると、$\text{SST}$ のみを使用しており、一元分散分析の検定統計量と比べると、ただ自由度で分割する部分だけが異なっている。もちろん次のようにブロック間の差を検定するための $F_{B}$ がないわけではないが、処理間の差にまず集中すべきという要点だ。 $$ F_{B} = {\frac{ \text{MSB} }{ \text{MSE} }} = {\frac{ \text{SSB} / (b - 1) }{ \text{SSE} / (b-1)(k-1) }} = {\frac{ \text{SSB}}{ \text{SSE} / (k-1) }} $$ 元の $F$ と類似して、この検定統計量は帰無仮説が真である場合、自由度が $(b-1), (b-1)(k-1)$ である F-分布 $F \left( b - 1 , (b - 1)(k - 1) \right)$ に従う。
例 3
ある大学が研究室で春、秋、冬別にガス使用量が変わるかどうかを把握しようとしている。もちろん研究室ごとにその特徴や好みが異なるため、同様の条件を備えた4つの研究室A、B、C、Dをブロックとして各研究室間の偏差を解消することにした。4つの研究室の季節別ガス使用量をデータとしてランダム化ブロック設計 下で分析してみよう。帰無仮説は各季節別の平均ガス使用量が等しいことであり、対立仮説は少なくとも1つの季節の平均ガス使用量が異なるというものである。
Lab | Spring | Fall | Winter |
---|---|---|---|
A | 27 | 68 | 308 |
B | 24 | 76 | 326 |
C | 31 | 65 | 312 |
D | 23 | 67 | 300 |
全体平均は135.6、季節別平均は春26.3、秋69.0、冬311.5である。
処理の数は $k = 3$、ブロックの数は $b = 4$ なので $\text{SST} = 189,335.2$ と $\text{SSE} = 241.5$ に対する $F$ は次のように求められる。 $$ F = {\frac{ \text{SST} / }{ \text{SSE} /(b - 1) }} = {\frac{ 189,335.2 / 2 }{ 241.5 / 3 }} = 2352.0 $$ $(k-1) = 2$ で $(k-1)(b-1) = 6$ だから、 有意水準 $\alpha = 5\%$ における棄却域の下限は $F_{2, 6} (0.05) = 5.14$ で $F \gg 5.14$ だから帰無仮説を棄却できる。つまり、少なくとも1つの季節の平均ガス使用量が他の季節の平均ガス使用量と異なるということだ。
一方、前述したようにブロックによる差を必ずしも検定する必要はないが、ブロックに関する検定統計量は $F_{B} = 1.84$ で $F_{3, 6} (0.05) = 4.76$ を下回るため、帰無仮説を棄却できない。つまり、研究室別ではガス使用量が異ならないということである。
検算
参照
実験計画 | パラメトリック手法 | ノンパラメトリック手法 |
---|---|---|
完全ランダム化設計 | 一元分散分析 | クラスカル・ウォリス $H$ 検定 |
ランダム化ブロック設計 | 二元分散分析 | フリードマン $F_{r}$ 検定 |