logo

回帰係数の正規性証明 📂確率分布論

回帰係数の正規性証明

定理

[y1y2yn]=[1x11xp11x12xp21x1nxpn][β0β1βp]+[ε1ε2εn] \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} pp 個の独立変数とnn 個のデータが与えられた場合、線形多重回帰モデル設計行列で表せば上のようになり、簡単に Y=Xβ+εY = X \beta + \varepsilon と表される。残差等分散性独立性正規性を持つという、つまり ε1,,εniidN(0,σ2)    εNn(0,σ2In) \varepsilon_{1} , \cdots , \varepsilon_{n} \overset{\text{iid}}{\sim} N \left( 0 , \sigma^{2} \right) \iff \varepsilon \sim N_{n} \left( \mathbf{0} , \sigma^{2} I_{n} \right) この仮定の下で、回帰係数の推定値 β^=(β^0,β^1,,β^p)=(XTX)1XTY \hat{\beta} = \left( \hat{\beta}_{0}, \hat{\beta}_{1}, \cdots, \hat{\beta}_{p} \right) = \left( X^{T} X \right)^{-1} X^{T} Y は次のような多変量正規分布に従う。 β^N1+p(β,σ2(XTX)1) \hat{\beta} \sim N_{1+p} \left( \beta , \sigma^{2} \left( X^{T} X \right)^{-1} \right) その上、β^\hat{\beta}β\beta最良線形不偏推定量であり、最良線形不偏推定量Best Linear Unbiased Estimator, BLUEとも呼ばれる。


説明

回帰係数のベクトルが多変量正規分布に従うという点は、回帰係数に関する仮説検定の際に特に重要であり、残差の等分散性独立性正規性が診断可能である必要がある。

証明

戦略:特に戦略と呼べるものはなく、全ては残差の正規性という仮定に従って容易に導出される。XXYY確率変数ではなくデータ行列の形で固定されている、つまり定数であることを知れば、あとは全て行列計算である。

正規性 1

β^=(XTX)1XTY=(XTX)1XT(Xβ+ε)=I1+pβ+(XTX)1XTε \begin{align*} \hat{\beta} =& \left( X^{T} X \right)^{-1} X^{T} Y \\ =& \left( X^{T} X \right)^{-1} X^{T} \left( X \beta + \varepsilon \right) \\ =& I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \end{align*} つまり、β^\hat{\beta}ε\varepsilon線形変換であり、ε\varepsilon が多変量正規分布に従うと仮定すれば、β^\hat{\beta} も多変量正規分布に従う。

平均

Eβ^=E[I1+pβ+(XTX)1XTε]=EI1+pβ+E[(XTX)1XTε]=EI1+pβ+(XTX)1XTEε=E[β0β1βp]+0=[β0β1βp] \begin{align*} E \hat{\beta} =& E \left[ I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& E I_{1+p} \beta + E \left[ \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& E I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} E \varepsilon \\ =& E \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \mathbf{0} \\ =& \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} \end{align*} それゆえ、β^\hat{\beta}β\beta不偏推定量でもある。

分散 2 3

Varβ^=Var[I1+pβ+(XTX)1XTε]=Var[(XTX)1XTε]=(XTX)1XT(Varε)((XTX)1XT)T=(XTX)1XTσ2I1+pX(XTX)1=σ2(XTX)1XTX(XTX)1=σ2(XTX)1 \begin{align*} \operatorname{Var} \hat{\beta} =& \operatorname{Var} \left[ I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& \operatorname{Var} \left[ \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& \left( X^{T} X \right)^{-1} X^{T} \left( \operatorname{Var} \varepsilon \right) \left( \left( X^{T} X \right)^{-1} X^{T} \right)^{T} \\ =& \left( X^{T} X \right)^{-1} X^{T} \sigma^{2} I_{1+p} X \left( X^{T} X \right)^{-1} \\ =& \sigma^{2} \left( X^{T} X \right)^{-1} X^{T} X \left( X^{T} X \right)^{-1} \\ =& \sigma^{2} \left( X^{T} X \right)^{-1} \end{align*} その間、β^\hat{\beta}最小二乗法を通じて導出されたので、β\beta の分散が小さい不偏推定量は存在しないため、最良不偏推定量である。