logo

分散分析のF検定 📂統計的検定

分散分析のF検定

仮説検定 1

実験計画上、kk個の処理があるとき、各処理からnjn_{j}個ずつ合計n=n1++nkn = n_{1} + \cdots + n_{k}個の標本を得たとする。j=1,,kj = 1 , \cdots , k番目の処理の標本がそれぞれ独立かつランダムに正規分布N(μj,σj2)N \left( \mu_{j} , \sigma_{j}^{2} \right)に従い、各正規分布の母分散が同じであるためσ2=σ12==σk2\sigma^{2} = \sigma_{1}^{2} = \cdots = \sigma_{k}^{2}と仮定する。集団間の母平均を比較する分散分析での仮説検定は次のとおりである。

  • H0H_{0}: μ1==μk\mu_{1} = \cdots = \mu_{k}
  • H1H_{1}: 少なくとも1つのμj\mu_{j}が他の母平均と異なる。

検定統計量

アノバテーブルが与えられているとする。

SourcedfSSMSF
Treatmentsk1k-1SSTMSTMST/MSE
Errornkn-kSSEMSE
Totaln1n-1TSS

検定統計量は次の通りである。
F=MSTMSE=SST/(k1)SSE/(nk) F = {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST} / (k - 1) }{ \text{SSE} / (n - k) }}
この検定統計量は帰無仮説が真であるという仮定の下で自由度が(k1),(nk)(k-1), (n-k)F-分布F(k1,nk)F \left( k - 1 , n - k \right)に従う。

説明

一元配置分散分析でも二元配置分散分析でも、数式的な導出はほぼ同じで、ブロックの有無に関する違いだけがあるので、便宜上このポストでは完全ランダム化設計下の一元配置分散分析を基準に、その理論的背景のみ取り扱うことにする。

検定統計量の導出過程でアノバテーブルを通じて得られた結果がどうやって仮説検定に繋がるのかを見てみたい。基本的に線形代数と数理統計に関する先行知識がたくさん、非常にたくさん要求されるため、学部生であれば省略しても良く、大学院生ほどになったら挑戦してみるようにしよう。

導出 2

Part 1. Zi2=Q1+Q2+Q3\sum Z_{i}^{2} = Q_{1} + Q_{2} + Q_{3}

処理別平均をxˉj:=ixij/nj\bar{x}_{j} := \sum_{i} x_{ij} / n_{j}とし、全体平均をxˉ:=ijxij/n\bar{x} := \sum_{ij} x_{ij} / nとする。 SST=j=1knj(xˉjxˉ)2SSE=(n11)s12++(nk1)sk2MST=SSTk1MSE=SSEnkF=MSTMSE=SST/(k1)SSE/(nk) \begin{align*} \text{SST} =& \sum_{j=1}^{k} n_{j} \left( \bar{x}_{j} - \bar{x} \right)^{2} \\ \text{SSE} =& \left( n_{1} - 1 \right) s_{1}^{2} + \cdots + \left( n_{k} - 1 \right) s_{k}^{2} \\ \text{MST} =& {\frac{ \text{SST} }{ k - 1 }} \\ \text{MSE} =& {\frac{ \text{SSE} }{ n - k }} \\ F =& {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST}/ (k - 1) }{ \text{SSE} / (n - k) }} \end{align*}

一元配置分散分析でのアノバテーブルは上記のようになる。帰無仮説が真である仮定の下では、どんなμ\muに対してもμ=μ1==μk\mu = \mu_{1} = \cdots = \mu_{k}とおけ、z-スコアZijZ_{ij}を次のように取ろう。 Zij:=(xijμσ)2N(0,1) Z_{ij} := \left( {\frac{ x_{ij} - \mu }{ \sigma }} \right)^{2} \sim N \left( 0, 1 \right)
ZijZ_{ij}の平方和は次のように展開できる。 j=1ki=1njZij2=j=1ki=1nj(xijμσ)2=1σ2j=1ki=1nj[(xijxˉj)+(xˉjxˉ)+(xˉμ)]2=1σ2j=1ki=1nj[(xijxˉj)2+(xˉjxˉ)2+(xˉμ)2]+2σ2j=1ki=1nj[(xijxˉj)(xˉjxˉ)+(xˉjxˉ)(xˉμ)+(xˉμ)(xijxˉj)] \begin{align*} & \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} Z_{ij}^{2} \\ =& \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ x_{ij} - \mu }{ \sigma }} \right)^{2} \\ =& {\frac{ 1 }{ \sigma^{2} }} \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left[ \left( x_{ij} - \bar{x}_{j} \right) + \left( \bar{x}_{j} - \bar{x} \right) + \left( \bar{x} - \mu \right) \right]^{2} \\ =& {\frac{ 1 }{ \sigma^{2} }} \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left[ \left( x_{ij} - \bar{x}_{j} \right)^{2} + \left( \bar{x}_{j} - \bar{x} \right)^{2} + \left( \bar{x} - \mu \right)^{2} \right] \\ &+ {\frac{ 2 }{ \sigma^{2} }} \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left[ \left( x_{ij} - \bar{x}_{j} \right) \left( \bar{x}_{j} - \bar{x} \right) + \left( \bar{x}_{j} - \bar{x} \right) \left( \bar{x} - \mu \right) + \left( \bar{x} - \mu \right) \left( x_{ij} - \bar{x}_{j} \right) \right] \end{align*}
ここで最後の行は i=1nj(xijxˉj)=i=1njxijnj1nji=1njxij=0 \begin{align*} & \sum_{i=1}^{n_{j}} \left( x_{ij} - \bar{x}_{j} \right) \\ =& \sum_{i=1}^{n_{j}} x_{ij} - n_{j} {\frac{ 1 }{ n_{j} }} \sum_{i=1}^{n_{j}} x_{ij} \\ =& 0 \end{align*}
であり、 j=1ki=1nj(xˉjxˉ)=j=1knj(xˉjxˉ)=j=1knjxˉjj=1knjxˉ=j=1knj1nji=1njxijnxˉ=0 \begin{align*} & \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( \bar{x}_{j} - \bar{x} \right) \\ =& \sum_{j=1}^{k} n_{j} \left( \bar{x}_{j} - \bar{x} \right) \\ =& \sum_{j=1}^{k} n_{j} \bar{x}_{j} - \sum_{j=1}^{k} n_{j} \bar{x} \\ =& \sum_{j=1}^{k} n_{j} {\frac{ 1 }{ n_{j} }} \sum_{i=1}^{n_{j}} x_{ij} - n \bar{x} \\ =& 0 \end{align*}
となるので、全て00が消えて、ZijZ_{ij}の平方和は次のように記すことができる。 j=1ki=1njZij2=j=1ki=1nj(xijxˉjσ)2+j=1ki=1nj(xˉjxˉσ)2+j=1ki=1nj(xˉμσ)2 \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} Z_{ij}^{2} = \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ x_{ij} - \bar{x}_{j} }{ \sigma }} \right)^{2} + \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ \bar{x}_{j} - \bar{x} }{ \sigma }} \right)^{2} + \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ \bar{x} - \mu }{ \sigma }} \right)^{2}
今、右辺の三つのシグマを順にQ1,Q2,Q3Q_{1}, Q_{2}, Q_{3}としよう。 j=1ki=1njZij2=Q1+Q2+Q3 \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} Z_{ij}^{2} = Q_{1} + Q_{2} + Q_{3}


Part 2. コクランの定理

ランダムベクトルを二次形式で表した偏差平方和: ランダムベクトルX=(X1,,Xn)\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)単位行列InRn×nI_{n} \in \mathbb{R}^{n \times n}、全ての成分が11である一行列JnRn×nJ_{n} \in \mathbb{R}^{n \times n}に対して、次が成立する。
XT(In1nJn)X=(n1)S2 \mathbf{X}^{T} \left( I_{n} - {\frac{ 1 }{ n }} J_{n} \right) \mathbf{X} = ( n - 1 ) S^{2}
ここでS2S^{2}標本分散である。

大きさn×nn \times n単位行列InI_{n}と全ての成分が11である一行列JnJ_{n}ブロック行列対角行列diag\diagに対して、次のように三つの対称行列A1,A2,A3A_{1} , A_{2} , A_{3}を定義する。 A1:=Indiag(1n1Jn1,,1nkJnk)A2:=diag(1n1Jn1,,1nkJnk)1nJnA3:=1nJn \begin{align*} A_{1} :=& I_{n} - \diag \left( {\frac{ 1 }{ n_{1} }} J_{n_{1}} , \cdots , {\frac{ 1 }{ n_{k} }} J_{n_{k}} \right) \\ A_{2} :=& \diag \left( {\frac{ 1 }{ n_{1} }} J_{n_{1}} , \cdots , {\frac{ 1 }{ n_{k} }} J_{n_{k}} \right) - {\frac{ 1 }{ n }} J_{n} \\ A_{3} :=& {\frac{ 1 }{ n }} J_{n} \end{align*}
ブロック対角行列の各ブロックは各処理jjごとの(nj1)sj2\left( n_{j} - 1 \right) s_{j}^{2}のための布石であることを知っておこう。この三つの行列の和は、その定義からA1+A2+A3=InA_{1} + A_{2} + A_{3} = I_{n}であり、一行列のランクが11であることから始めて、この三つの行列のランクが次のようであることを容易に知ることができる。 rankA1=nkrankA2=k1rankA3=1 \begin{align*} \rank A_{1} =& n - k \\ \rank A_{2} =& k - 1 \\ \rank A_{3} =& 1 \end{align*}

今、ベクトルZRn×1\mathbf{Z} \in \mathbb{R}^{n \times 1}njn_{j}次元ベクトル(xj1,,xjnj)Rnj×1\left( x_{j1} , \cdots , x_{j n_{j}} \right) \in \mathbb{R}^{n_{j} \times 1}に対して次のように定義しよう。 Z:=[z1zk]=[(x11,,x1n1)(x1k,,xknk)]=[x11xknk] \mathbf{Z} := \begin{bmatrix} z_{1} \\ \vdots \\ z_{k} \end{bmatrix} = \begin{bmatrix} \left( x_{11} , \cdots , x_{1 n_{1}} \right) \\ \vdots \\ \left( x_{1k} , \cdots , x_{k n_{k}} \right) \end{bmatrix} = \begin{bmatrix} x_{11} \\ \vdots \\ x_{k n_{k}} \end{bmatrix}
ベクトルの表記に従い、ZijZ_{ij}の平方和は次のように書ける。 j=1ki=1njZij2=Q1+Q2+Q3=ZTA1Z+ZTA2Z+ZTA3Z \begin{align*} \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} Z_{ij}^{2} =& Q_{1} + Q_{2} + Q_{3} \\ =& \mathbf{Z}^{T} A_{1} \mathbf{Z} + \mathbf{Z}^{T} A_{2} \mathbf{Z} + \mathbf{Z}^{T} A_{3} \mathbf{Z} \end{align*}

コクランの定理: サンプルX=(X1,,Xn)\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)X1,,XniidN(0,σ2)X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right)のようにiid正規分布に従うとする。ランクrjr_{j}対称行列A1,,AkRn×nA_{1} , \cdots , A_{k} \in \mathbb{R}^{n \times n}に対して、確率変数Q1,,QkQ_{1} , \cdots , Q_{k}ランダムベクトル二次形式Qi:=XTAiXQ_{i} := \mathbf{X}^{T} A_{i} \mathbf{X}で表され、サンプルの平方和がi=1nXi2=j=1kQj\sum_{i=1}^{n} X_{i}^{2} = \sum_{j=1}^{k} Q_{j}で表される場合、次が成立する。 j,Qjσ2χ2(rj)j1j2,Qj1Qj2    j=1krj=n \forall j , {\frac{ Q_{j} }{ \sigma^{2} }} \sim \chi^{2} \left( r_{j} \right) \land \forall j_{1} \ne j_{2} , Q_{j_{1}} \perp Q_{j_{2}} \iff \sum_{j=1}^{k} r_{j} = n
言い換えれば、QjQ_{j}が互いに独立かつカイ二乗分布χ2(rj)\chi^{2} \left( r_{j} \right)に従うことと、同値条件はランクrjr_{j}の和がサンプルの大きさnnと等しいことである。

Z\mathbf{Z}の各成分が標準正規分布N(0,12)N \left( 0 , 1^{2} \right)に従いl=13rankAl=n\sum_{l=1}^{3} \rank A_{l} = nであるため、コクランの定理に従いQ1Q_{1}Q2Q_{2}は次のように互いに独立でカイ二乗分布に従う。 Q1=Q112χ2(rankA1)=χ2(nk)Q2=Q212χ2(rankA2)=χ2(k1) \begin{align*} Q_{1} = {\frac{ Q_{1} }{ 1^{2} }} \sim& \chi^{2} \left( \rank A_{1} \right) = \chi^{2} \left( n - k \right) \\ Q_{2} = {\frac{ Q_{2} }{ 1^{2} }} \sim& \chi^{2} \left( \rank A_{2} \right) = \chi^{2} \left( k - 1 \right) \end{align*}
一方、このQ1Q_{1}Q2Q_{2}SSE\text{SSE}SST\text{SST}に対して次のように表せる。 Q1=j=1ki=1nj(xijxˉjσ)2=1σ2[(n11)s12++(nk1)sk2]=1σ2SSEQ2=j=1ki=1nj(xˉjxˉσ)2=1σ2j=1knj(xˉjxˉ)2=1σ2SST \begin{align*} Q_{1} =& \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ x_{ij} - \bar{x}_{j} }{ \sigma }} \right)^{2} =& {\frac{ 1 }{ \sigma^{2} }} \left[ \left( n_{1} - 1 \right) s_{1}^{2} + \cdots + \left( n_{k} - 1 \right) s_{k}^{2} \right] =& {\frac{ 1 }{ \sigma^{2} }} \text{SSE} \\ Q_{2} =& \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ \bar{x}_{j} - \bar{x} }{ \sigma }} \right)^{2} =& {\frac{ 1 }{ \sigma^{2} }} \sum_{j=1}^{k} n_{j} \left( \bar{x}_{j} - \bar{x} \right)^{2} =& {\frac{ 1 }{ \sigma^{2} }} \text{SST} \end{align*}


Part 3. F-分布の導出

独立な二つのカイ二乗分布からF-分布の導出: 二つの確率変数U,VU,V独立かつUχ2(r1)U \sim \chi^{2} ( r_{1})Vχ2(r2)V \sim \chi^{2} ( r_{2})であるとする。 U/r1V/r2F(r1,r2) {{ U / r_{1} } \over { V / r_{2} }} \sim F \left( r_{1} , r_{2} \right)

F=MSTMSE=SST/(k1)SSE/(nk)=(SST/σ2)/(k1)(SSE/σ2)/(nk)=Q2/(k1)Q1/(nk)F(k1,nk) \begin{align*} F =& {\frac{ \text{MST} }{ \text{MSE} }} \\ =& {\frac{ \text{SST} / (k - 1) }{ \text{SSE} / (n - k) }} \\ =& {\frac{ \left( \text{SST} / \sigma^{2} \right) / (k - 1) }{ \left( \text{SSE} / \sigma^{2 }\right) / (n - k) }} \\ =& {\frac{ Q_{2} / (k-1)}{ Q_{1} / (n-k) }} \\ \sim& F \left( k - 1 , n - k \right) \end{align*}
これにより、帰無仮説が真であるという仮定の下で検定統計量FFがF-分布に従うことがわかる。

関連項目


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p455. ↩︎

  2. https://statproofbook.github.io/P/anova1-f.html ↩︎