分散分析のF検定
仮説検定 1
実験計画上、$k$個の処理があるとき、各処理から$n_{j}$個ずつ合計$n = n_{1} + \cdots + n_{k}$個の標本を得たとする。$j = 1 , \cdots , k$番目の処理の標本がそれぞれ独立かつランダムに正規分布$N \left( \mu_{j} , \sigma_{j}^{2} \right)$に従い、各正規分布の母分散が同じであるため$\sigma^{2} = \sigma_{1}^{2} = \cdots = \sigma_{k}^{2}$と仮定する。集団間の母平均を比較する分散分析での仮説検定は次のとおりである。
- $H_{0}$: $\mu_{1} = \cdots = \mu_{k}$
- $H_{1}$: 少なくとも1つの$\mu_{j}$が他の母平均と異なる。
検定統計量
アノバテーブルが与えられているとする。
Source | df | SS | MS | F |
---|---|---|---|---|
Treatments | $k-1$ | SST | MST | MST/MSE |
Error | $n-k$ | SSE | MSE | |
Total | $n-1$ | TSS |
検定統計量は次の通りである。
$$
F = {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST} / (k - 1) }{ \text{SSE} / (n - k) }}
$$
この検定統計量は帰無仮説が真であるという仮定の下で自由度が$(k-1), (n-k)$のF-分布$F \left( k - 1 , n - k \right)$に従う。
説明
一元配置分散分析でも二元配置分散分析でも、数式的な導出はほぼ同じで、ブロックの有無に関する違いだけがあるので、便宜上このポストでは完全ランダム化設計下の一元配置分散分析を基準に、その理論的背景のみ取り扱うことにする。
検定統計量の導出過程でアノバテーブルを通じて得られた結果がどうやって仮説検定に繋がるのかを見てみたい。基本的に線形代数と数理統計に関する先行知識がたくさん、非常にたくさん要求されるため、学部生であれば省略しても良く、大学院生ほどになったら挑戦してみるようにしよう。
導出 2
Part 1. $\sum Z_{i}^{2} = Q_{1} + Q_{2} + Q_{3}$
処理別平均を$\bar{x}_{j} := \sum_{i} x_{ij} / n_{j}$とし、全体平均を$\bar{x} := \sum_{ij} x_{ij} / n$とする。 $$ \begin{align*} \text{SST} =& \sum_{j=1}^{k} n_{j} \left( \bar{x}_{j} - \bar{x} \right)^{2} \\ \text{SSE} =& \left( n_{1} - 1 \right) s_{1}^{2} + \cdots + \left( n_{k} - 1 \right) s_{k}^{2} \\ \text{MST} =& {\frac{ \text{SST} }{ k - 1 }} \\ \text{MSE} =& {\frac{ \text{SSE} }{ n - k }} \\ F =& {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST}/ (k - 1) }{ \text{SSE} / (n - k) }} \end{align*} $$
一元配置分散分析でのアノバテーブルは上記のようになる。帰無仮説が真である仮定の下では、どんな$\mu$に対しても$\mu = \mu_{1} = \cdots = \mu_{k}$とおけ、z-スコア$Z_{ij}$を次のように取ろう。
$$
Z_{ij} := \left( {\frac{ x_{ij} - \mu }{ \sigma }} \right)^{2} \sim N \left( 0, 1 \right)
$$
$Z_{ij}$の平方和は次のように展開できる。
$$
\begin{align*}
& \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} Z_{ij}^{2}
\\ =& \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ x_{ij} - \mu }{ \sigma }} \right)^{2}
\\ =& {\frac{ 1 }{ \sigma^{2} }} \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left[ \left( x_{ij} - \bar{x}_{j} \right) + \left( \bar{x}_{j} - \bar{x} \right) + \left( \bar{x} - \mu \right) \right]^{2}
\\ =& {\frac{ 1 }{ \sigma^{2} }} \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left[ \left( x_{ij} - \bar{x}_{j} \right)^{2} + \left( \bar{x}_{j} - \bar{x} \right)^{2} + \left( \bar{x} - \mu \right)^{2} \right]
\\ &+ {\frac{ 2 }{ \sigma^{2} }} \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left[ \left( x_{ij} - \bar{x}_{j} \right) \left( \bar{x}_{j} - \bar{x} \right) + \left( \bar{x}_{j} - \bar{x} \right) \left( \bar{x} - \mu \right) + \left( \bar{x} - \mu \right) \left( x_{ij} - \bar{x}_{j} \right) \right]
\end{align*}
$$
ここで最後の行は
$$
\begin{align*}
& \sum_{i=1}^{n_{j}} \left( x_{ij} - \bar{x}_{j} \right)
\\ =& \sum_{i=1}^{n_{j}} x_{ij} - n_{j} {\frac{ 1 }{ n_{j} }} \sum_{i=1}^{n_{j}} x_{ij}
\\ =& 0
\end{align*}
$$
であり、
$$
\begin{align*}
& \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( \bar{x}_{j} - \bar{x} \right)
\\ =& \sum_{j=1}^{k} n_{j} \left( \bar{x}_{j} - \bar{x} \right)
\\ =& \sum_{j=1}^{k} n_{j} \bar{x}_{j} - \sum_{j=1}^{k} n_{j} \bar{x}
\\ =& \sum_{j=1}^{k} n_{j} {\frac{ 1 }{ n_{j} }} \sum_{i=1}^{n_{j}} x_{ij} - n \bar{x}
\\ =& 0
\end{align*}
$$
となるので、全て$0$が消えて、$Z_{ij}$の平方和は次のように記すことができる。
$$
\sum_{j=1}^{k} \sum_{i=1}^{n_{j}} Z_{ij}^{2} = \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ x_{ij} - \bar{x}_{j} }{ \sigma }} \right)^{2} + \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ \bar{x}_{j} - \bar{x} }{ \sigma }} \right)^{2} + \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ \bar{x} - \mu }{ \sigma }} \right)^{2}
$$
今、右辺の三つのシグマを順に$Q_{1}, Q_{2}, Q_{3}$としよう。
$$
\sum_{j=1}^{k} \sum_{i=1}^{n_{j}} Z_{ij}^{2} = Q_{1} + Q_{2} + Q_{3}
$$
Part 2. コクランの定理
ランダムベクトルを二次形式で表した偏差平方和: ランダムベクトル$\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)$と単位行列$I_{n} \in \mathbb{R}^{n \times n}$、全ての成分が$1$である一行列$J_{n} \in \mathbb{R}^{n \times n}$に対して、次が成立する。
$$ \mathbf{X}^{T} \left( I_{n} - {\frac{ 1 }{ n }} J_{n} \right) \mathbf{X} = ( n - 1 ) S^{2} $$
ここで$S^{2}$は標本分散である。
大きさ$n \times n$の単位行列$I_{n}$と全ての成分が$1$である一行列$J_{n}$、ブロック行列の対角行列$\diag$に対して、次のように三つの対称行列$A_{1} , A_{2} , A_{3}$を定義する。
$$
\begin{align*}
A_{1} :=& I_{n} - \diag \left( {\frac{ 1 }{ n_{1} }} J_{n_{1}} , \cdots , {\frac{ 1 }{ n_{k} }} J_{n_{k}} \right)
\\ A_{2} :=& \diag \left( {\frac{ 1 }{ n_{1} }} J_{n_{1}} , \cdots , {\frac{ 1 }{ n_{k} }} J_{n_{k}} \right) - {\frac{ 1 }{ n }} J_{n}
\\ A_{3} :=& {\frac{ 1 }{ n }} J_{n}
\end{align*}
$$
ブロック対角行列の各ブロックは各処理$j$ごとの$\left( n_{j} - 1 \right) s_{j}^{2}$のための布石であることを知っておこう。この三つの行列の和は、その定義から$A_{1} + A_{2} + A_{3} = I_{n}$であり、一行列のランクが$1$であることから始めて、この三つの行列のランクが次のようであることを容易に知ることができる。
$$
\begin{align*}
\rank A_{1} =& n - k
\\ \rank A_{2} =& k - 1
\\ \rank A_{3} =& 1
\end{align*}
$$
今、ベクトル$\mathbf{Z} \in \mathbb{R}^{n \times 1}$を$n_{j}$次元ベクトル$\left( x_{j1} , \cdots , x_{j n_{j}} \right) \in \mathbb{R}^{n_{j} \times 1}$に対して次のように定義しよう。
$$
\mathbf{Z} := \begin{bmatrix} z_{1} \\ \vdots \\ z_{k} \end{bmatrix} = \begin{bmatrix} \left( x_{11} , \cdots , x_{1 n_{1}} \right) \\ \vdots \\ \left( x_{1k} , \cdots , x_{k n_{k}} \right) \end{bmatrix} = \begin{bmatrix} x_{11} \\ \vdots \\ x_{k n_{k}} \end{bmatrix}
$$
ベクトルの表記に従い、$Z_{ij}$の平方和は次のように書ける。
$$
\begin{align*}
\sum_{j=1}^{k} \sum_{i=1}^{n_{j}} Z_{ij}^{2} =& Q_{1} + Q_{2} + Q_{3}
\\ =& \mathbf{Z}^{T} A_{1} \mathbf{Z} + \mathbf{Z}^{T} A_{2} \mathbf{Z} + \mathbf{Z}^{T} A_{3} \mathbf{Z}
\end{align*}
$$
コクランの定理: サンプル$\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)$が$X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right)$のようにiidで正規分布に従うとする。ランクが$r_{j}$の対称行列$A_{1} , \cdots , A_{k} \in \mathbb{R}^{n \times n}$に対して、確率変数$Q_{1} , \cdots , Q_{k}$がランダムベクトル二次形式$Q_{i} := \mathbf{X}^{T} A_{i} \mathbf{X}$で表され、サンプルの平方和が$\sum_{i=1}^{n} X_{i}^{2} = \sum_{j=1}^{k} Q_{j}$で表される場合、次が成立する。 $$ \forall j , {\frac{ Q_{j} }{ \sigma^{2} }} \sim \chi^{2} \left( r_{j} \right) \land \forall j_{1} \ne j_{2} , Q_{j_{1}} \perp Q_{j_{2}} \iff \sum_{j=1}^{k} r_{j} = n $$
言い換えれば、$Q_{j}$が互いに独立かつカイ二乗分布$\chi^{2} \left( r_{j} \right)$に従うことと、同値条件はランク$r_{j}$の和がサンプルの大きさ$n$と等しいことである。
$\mathbf{Z}$の各成分が標準正規分布$N \left( 0 , 1^{2} \right)$に従い$\sum_{l=1}^{3} \rank A_{l} = n$であるため、コクランの定理に従い$Q_{1}$と$Q_{2}$は次のように互いに独立でカイ二乗分布に従う。
$$
\begin{align*}
Q_{1} = {\frac{ Q_{1} }{ 1^{2} }} \sim& \chi^{2} \left( \rank A_{1} \right) = \chi^{2} \left( n - k \right)
\\ Q_{2} = {\frac{ Q_{2} }{ 1^{2} }} \sim& \chi^{2} \left( \rank A_{2} \right) = \chi^{2} \left( k - 1 \right)
\end{align*}
$$
一方、この$Q_{1}$と$Q_{2}$は$\text{SSE}$と$\text{SST}$に対して次のように表せる。
$$
\begin{align*}
Q_{1} =& \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ x_{ij} - \bar{x}_{j} }{ \sigma }} \right)^{2} =& {\frac{ 1 }{ \sigma^{2} }} \left[ \left( n_{1} - 1 \right) s_{1}^{2} + \cdots + \left( n_{k} - 1 \right) s_{k}^{2} \right] =& {\frac{ 1 }{ \sigma^{2} }} \text{SSE}
\\ Q_{2} =& \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ \bar{x}_{j} - \bar{x} }{ \sigma }} \right)^{2} =& {\frac{ 1 }{ \sigma^{2} }} \sum_{j=1}^{k} n_{j} \left( \bar{x}_{j} - \bar{x} \right)^{2} =& {\frac{ 1 }{ \sigma^{2} }} \text{SST}
\end{align*}
$$
Part 3. F-分布の導出
独立な二つのカイ二乗分布からF-分布の導出: 二つの確率変数$U,V$が独立かつ$U \sim \chi^{2} ( r_{1})$、$V \sim \chi^{2} ( r_{2})$であるとする。 $$ {{ U / r_{1} } \over { V / r_{2} }} \sim F \left( r_{1} , r_{2} \right) $$
$$
\begin{align*}
F =& {\frac{ \text{MST} }{ \text{MSE} }}
\\ =& {\frac{ \text{SST} / (k - 1) }{ \text{SSE} / (n - k) }}
\\ =& {\frac{ \left( \text{SST} / \sigma^{2} \right) / (k - 1) }{ \left( \text{SSE} / \sigma^{2 }\right) / (n - k) }}
\\ =& {\frac{ Q_{2} / (k-1)}{ Q_{1} / (n-k) }}
\\ \sim& F \left( k - 1 , n - k \right)
\end{align*}
$$
これにより、帰無仮説が真であるという仮定の下で検定統計量$F$がF-分布に従うことがわかる。
■
関連項目
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p455. ↩︎