分散分析のF検定
📂統計的検定分散分析のF検定
仮説検定
実験計画上、k個の処理があるとき、各処理からnj個ずつ合計n=n1+⋯+nk個の標本を得たとする。j=1,⋯,k番目の処理の標本がそれぞれ独立かつランダムに正規分布N(μj,σj2)に従い、各正規分布の母分散が同じであるためσ2=σ12=⋯=σk2と仮定する。集団間の母平均を比較する分散分析での仮説検定は次のとおりである。
- H0: μ1=⋯=μk
- H1: 少なくとも1つのμjが他の母平均と異なる。
検定統計量
アノバテーブルが与えられているとする。
Source | df | SS | MS | F |
---|
Treatments | k−1 | SST | MST | MST/MSE |
Error | n−k | SSE | MSE | |
Total | n−1 | TSS | | |
検定統計量は次の通りである。
F=MSEMST=SSE/(n−k)SST/(k−1)
この検定統計量は帰無仮説が真であるという仮定の下で自由度が(k−1),(n−k)のF-分布F(k−1,n−k)に従う。
説明
一元配置分散分析でも二元配置分散分析でも、数式的な導出はほぼ同じで、ブロックの有無に関する違いだけがあるので、便宜上このポストでは完全ランダム化設計下の一元配置分散分析を基準に、その理論的背景のみ取り扱うことにする。
検定統計量の導出過程でアノバテーブルを通じて得られた結果がどうやって仮説検定に繋がるのかを見てみたい。基本的に線形代数と数理統計に関する先行知識がたくさん、非常にたくさん要求されるため、学部生であれば省略しても良く、大学院生ほどになったら挑戦してみるようにしよう。
導出
Part 1. ∑Zi2=Q1+Q2+Q3
処理別平均をxˉj:=∑ixij/njとし、全体平均をxˉ:=∑ijxij/nとする。
SST=SSE=MST=MSE=F=j=1∑knj(xˉj−xˉ)2(n1−1)s12+⋯+(nk−1)sk2k−1SSTn−kSSEMSEMST=SSE/(n−k)SST/(k−1)
一元配置分散分析でのアノバテーブルは上記のようになる。帰無仮説が真である仮定の下では、どんなμに対してもμ=μ1=⋯=μkとおけ、z-スコアZijを次のように取ろう。
Zij:=(σxij−μ)2∼N(0,1)
Zijの平方和は次のように展開できる。
===j=1∑ki=1∑njZij2j=1∑ki=1∑nj(σxij−μ)2σ21j=1∑ki=1∑nj[(xij−xˉj)+(xˉj−xˉ)+(xˉ−μ)]2σ21j=1∑ki=1∑nj[(xij−xˉj)2+(xˉj−xˉ)2+(xˉ−μ)2]+σ22j=1∑ki=1∑nj[(xij−xˉj)(xˉj−xˉ)+(xˉj−xˉ)(xˉ−μ)+(xˉ−μ)(xij−xˉj)]
ここで最後の行は
==i=1∑nj(xij−xˉj)i=1∑njxij−njnj1i=1∑njxij0
であり、
====j=1∑ki=1∑nj(xˉj−xˉ)j=1∑knj(xˉj−xˉ)j=1∑knjxˉj−j=1∑knjxˉj=1∑knjnj1i=1∑njxij−nxˉ0
となるので、全て0が消えて、Zijの平方和は次のように記すことができる。
j=1∑ki=1∑njZij2=j=1∑ki=1∑nj(σxij−xˉj)2+j=1∑ki=1∑nj(σxˉj−xˉ)2+j=1∑ki=1∑nj(σxˉ−μ)2
今、右辺の三つのシグマを順にQ1,Q2,Q3としよう。
j=1∑ki=1∑njZij2=Q1+Q2+Q3
Part 2. コクランの定理
ランダムベクトルを二次形式で表した偏差平方和: ランダムベクトルX=(X1,⋯,Xn)と単位行列In∈Rn×n、全ての成分が1である一行列Jn∈Rn×nに対して、次が成立する。
XT(In−n1Jn)X=(n−1)S2
ここでS2は標本分散である。
大きさn×nの単位行列Inと全ての成分が1である一行列Jn、ブロック行列の対角行列diagに対して、次のように三つの対称行列A1,A2,A3を定義する。
A1:=A2:=A3:=In−diag(n11Jn1,⋯,nk1Jnk)diag(n11Jn1,⋯,nk1Jnk)−n1Jnn1Jn
ブロック対角行列の各ブロックは各処理jごとの(nj−1)sj2のための布石であることを知っておこう。この三つの行列の和は、その定義からA1+A2+A3=Inであり、一行列のランクが1であることから始めて、この三つの行列のランクが次のようであることを容易に知ることができる。
rankA1=rankA2=rankA3=n−kk−11
今、ベクトルZ∈Rn×1をnj次元ベクトル(xj1,⋯,xjnj)∈Rnj×1に対して次のように定義しよう。
Z:=z1⋮zk=(x11,⋯,x1n1)⋮(x1k,⋯,xknk)=x11⋮xknk
ベクトルの表記に従い、Zijの平方和は次のように書ける。
j=1∑ki=1∑njZij2==Q1+Q2+Q3ZTA1Z+ZTA2Z+ZTA3Z
コクランの定理: サンプルX=(X1,⋯,Xn)がX1,⋯,Xn∼iidN(0,σ2)のようにiidで正規分布に従うとする。ランクがrjの対称行列A1,⋯,Ak∈Rn×nに対して、確率変数Q1,⋯,Qkがランダムベクトル二次形式Qi:=XTAiXで表され、サンプルの平方和が∑i=1nXi2=∑j=1kQjで表される場合、次が成立する。
∀j,σ2Qj∼χ2(rj)∧∀j1=j2,Qj1⊥Qj2⟺j=1∑krj=n
言い換えれば、Qjが互いに独立かつカイ二乗分布χ2(rj)に従うことと、同値条件はランクrjの和がサンプルの大きさnと等しいことである。
Zの各成分が標準正規分布N(0,12)に従い∑l=13rankAl=nであるため、コクランの定理に従いQ1とQ2は次のように互いに独立でカイ二乗分布に従う。
Q1=12Q1∼Q2=12Q2∼χ2(rankA1)=χ2(n−k)χ2(rankA2)=χ2(k−1)
一方、このQ1とQ2はSSEとSSTに対して次のように表せる。
Q1=Q2=j=1∑ki=1∑nj(σxij−xˉj)2=j=1∑ki=1∑nj(σxˉj−xˉ)2=σ21[(n1−1)s12+⋯+(nk−1)sk2]=σ21j=1∑knj(xˉj−xˉ)2=σ21SSEσ21SST
Part 3. F-分布の導出
独立な二つのカイ二乗分布からF-分布の導出: 二つの確率変数U,Vが独立かつU∼χ2(r1)、V∼χ2(r2)であるとする。
V/r2U/r1∼F(r1,r2)
F====∼MSEMSTSSE/(n−k)SST/(k−1)(SSE/σ2)/(n−k)(SST/σ2)/(k−1)Q1/(n−k)Q2/(k−1)F(k−1,n−k)
これにより、帰無仮説が真であるという仮定の下で検定統計量FがF-分布に従うことがわかる。
■
関連項目