回帰係数の正規性証明
📂確率分布論回帰係数の正規性証明
定理
y1y2⋮yn=11⋮1x11x12⋮x1n⋯⋯⋱⋯xp1xp2⋮xpnβ0β1⋮βp+ε1ε2⋮εn
p 個の独立変数とn 個のデータが与えられた場合、線形多重回帰モデルを設計行列で表せば上のようになり、簡単に Y=Xβ+ε と表される。残差が等分散性、独立性、正規性を持つという、つまり
ε1,⋯,εn∼iidN(0,σ2)⟺ε∼Nn(0,σ2In)
この仮定の下で、回帰係数の推定値
β^=(β^0,β^1,⋯,β^p)=(XTX)−1XTY
は次のような多変量正規分布に従う。
β^∼N1+p(β,σ2(XTX)−1)
その上、β^ はβ の最良線形不偏推定量であり、最良線形不偏推定量Best Linear Unbiased Estimator, BLUEとも呼ばれる。
説明
回帰係数のベクトルが多変量正規分布に従うという点は、回帰係数に関する仮説検定の際に特に重要であり、残差の等分散性、独立性、正規性が診断可能である必要がある。
証明
戦略:特に戦略と呼べるものはなく、全ては残差の正規性という仮定に従って容易に導出される。X とY が確率変数ではなくデータが行列の形で固定されている、つまり定数であることを知れば、あとは全て行列計算である。
正規性
β^===(XTX)−1XTY(XTX)−1XT(Xβ+ε)I1+pβ+(XTX)−1XTε
つまり、β^ はε の線形変換であり、ε が多変量正規分布に従うと仮定すれば、β^ も多変量正規分布に従う。
■
平均
Eβ^=====E[I1+pβ+(XTX)−1XTε]EI1+pβ+E[(XTX)−1XTε]EI1+pβ+(XTX)−1XTEεEβ0β1⋮βp+0β0β1⋮βp
それゆえ、β^ はβ の不偏推定量でもある。
■
分散
Varβ^======Var[I1+pβ+(XTX)−1XTε]Var[(XTX)−1XTε](XTX)−1XT(Varε)((XTX)−1XT)T(XTX)−1XTσ2I1+pX(XTX)−1σ2(XTX)−1XTX(XTX)−1σ2(XTX)−1
その間、β^ は最小二乗法を通じて導出されたので、β の分散が小さい不偏推定量は存在しないため、最良不偏推定量である。
■