二元分散分析 (にげんぶんさんぶんせき) 📂統計的検定

二元分散分析 (にげんぶんさんぶんせき)

仮説検定 ¹

実験計画上 $k$ 個の処理と $b$ 個のブロックがあり、$n = bk$ 個のサンプルを得たとする。$j = 1 , \cdots , k$ 番目の処理のサンプルがそれぞれ独立してランダムに正規分布 $N \left( \mu_{j} , \sigma_{j}^{2} \right)$ に従い、各正規分布の母分散が全て等しく $\sigma^{2} = \sigma_{1}^{2} = \cdots = \sigma_{k}^{2}$ であると仮定する。集団間の母平均を比較する分散分析の 二元分散分析^{two-way ANOVA}における仮説検定は次の通りである。

$H_{0}$: $\mu_{1} = \cdots = \mu_{k}$
$H_{1}$: 少なくとも1つの $\mu_{j}$ は他の母平均と異なる。

検定統計量

ランダム化ブロック設計下で ANOVA表が次のように与えられたとする。

Source	df	SS	MS	F
Treatments	$k-1$	SST	MST	MST/MSE
Blocks	$b-1$	SSB	MSB
Error	$(k-1)(b-1)$	SSE	MSE
Total	$n-1$	TSS

検定統計量は次の通りである。 $$ F = {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST} / (k - 1) }{ \text{SSE} / (k - 1)(b - 1) }} $$ この検定統計量は帰無仮説が真である場合、自由度が $(k-1), (k - 1)(b - 1)$ である F-分布 $F \left( k - 1 , (k - 1)(b - 1) \right)$ に従う。

説明

処理別平均を $\bar{x}_{j} := \sum_{i} x_{ij} / n_{j}$、全体平均を $\bar{x} := \sum_{ij} x_{ij} / n$ とする。 $$ \begin{align*} \text{SST} =& \sum_{j=1}^{k} n_{j} \left( \bar{x}_{j} - \bar{x} \right)^{2} \\ \text{SSE} =& \left( n_{1} - 1 \right) s_{1}^{2} + \cdots + \left( n_{k} - 1 \right) s_{k}^{2} \\ \text{SSB} =& \sum_{i=1}^{b} \left( x_{i} - \bar{x} \right)^{2} \\ \text{MST} =& {\frac{ \text{SST} }{ k - 1 }} \\ \text{MSB} =& {\frac{ \text{SSB} }{ b - 1 }} \\ \text{MSE} =& {\frac{ \text{SSE} }{ (b-1)(k-1) }} \\ F =& {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST}/ (k - 1) }{ \text{SSE} / (b-1)(k-1) }} = {\frac{ \text{SST}}{ \text{SSE} / (b-1) }} \end{align*} $$ 検定統計量の導出そのものについては分散分析でのF検定を参照することとしよう。

注意事項

一つ気を付けるべきことは、二元分散分析でブロックが追加されているとはいえ、依然として主に関心が向けられるのは処理間の差にあるため $\text{MSB}$ は気にせずともよいという点である²。検定統計量 $F$ を見ると、$\text{SST}$ のみを使用しており、一元分散分析の検定統計量と比べると、ただ自由度で分割する部分だけが異なっている。もちろん次のようにブロック間の差を検定するための $F_{B}$ がないわけではないが、処理間の差にまず集中すべきという要点だ。 $$ F_{B} = {\frac{ \text{MSB} }{ \text{MSE} }} = {\frac{ \text{SSB} / (b - 1) }{ \text{SSE} / (b-1)(k-1) }} = {\frac{ \text{SSB}}{ \text{SSE} / (k-1) }} $$ 元の $F$ と類似して、この検定統計量は帰無仮説が真である場合、自由度が $(b-1), (b-1)(k-1)$ である F-分布 $F \left( b - 1 , (b - 1)(k - 1) \right)$ に従う。

例 ³

ある大学が研究室で春、秋、冬別にガス使用量が変わるかどうかを把握しようとしている。もちろん研究室ごとにその特徴や好みが異なるため、同様の条件を備えた4つの研究室A、B、C、Dをブロックとして各研究室間の偏差を解消することにした。4つの研究室の季節別ガス使用量をデータとしてランダム化ブロック設計下で分析してみよう。帰無仮説は各季節別の平均ガス使用量が等しいことであり、対立仮説は少なくとも1つの季節の平均ガス使用量が異なるというものである。

Lab	Spring	Fall	Winter
A	27	68	308
B	24	76	326
C	31	65	312
D	23	67	300

全体平均は135.6、季節別平均は春26.3、秋69.0、冬311.5である。

処理の数は $k = 3$、ブロックの数は $b = 4$ なので $\text{SST} = 189,335.2$ と $\text{SSE} = 241.5$ に対する $F$ は次のように求められる。 $$ F = {\frac{ \text{SST} / }{ \text{SSE} /(b - 1) }} = {\frac{ 189,335.2 / 2 }{ 241.5 / 3 }} = 2352.0 $$ $(k-1) = 2$ で $(k-1)(b-1) = 6$ だから、有意水準 $\alpha = 5\%$ における棄却域の下限は $F_{2, 6} (0.05) = 5.14$ で $F \gg 5.14$ だから帰無仮説を棄却できる。つまり、少なくとも1つの季節の平均ガス使用量が他の季節の平均ガス使用量と異なるということだ。

一方、前述したようにブロックによる差を必ずしも検定する必要はないが、ブロックに関する検定統計量は $F_{B} = 1.84$ で $F_{3, 6} (0.05) = 4.76$ を下回るため、帰無仮説を棄却できない。つまり、研究室別ではガス使用量が異ならないということである。

検算

alt text

参照

分散分析の $F$ 検定

実験計画	パラメトリック手法	ノンパラメトリック手法
完全ランダム化設計	一元分散分析	クラスカル・ウォリス $H$ 検定
ランダム化ブロック設計	二元分散分析	フリードマン $F_{r}$ 検定

Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p471. ↩︎
경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p291. ↩︎
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p469. ↩︎