logo

回帰係数の正規性証明 📂確率分布論

回帰係数の正規性証明

定理

$$ \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} $$ $p$ 個の独立変数と$n$ 個のデータが与えられた場合、線形多重回帰モデル設計行列で表せば上のようになり、簡単に $Y = X \beta + \varepsilon$ と表される。残差等分散性独立性正規性を持つという、つまり $$ \varepsilon_{1} , \cdots , \varepsilon_{n} \overset{\text{iid}}{\sim} N \left( 0 , \sigma^{2} \right) \iff \varepsilon \sim N_{n} \left( \mathbf{0} , \sigma^{2} I_{n} \right) $$ この仮定の下で、回帰係数の推定値 $$ \hat{\beta} = \left( \hat{\beta}_{0}, \hat{\beta}_{1}, \cdots, \hat{\beta}_{p} \right) = \left( X^{T} X \right)^{-1} X^{T} Y $$ は次のような多変量正規分布に従う。 $$ \hat{\beta} \sim N_{1+p} \left( \beta , \sigma^{2} \left( X^{T} X \right)^{-1} \right) $$ その上、$\hat{\beta}$ は$\beta$ の最良線形不偏推定量であり、最良線形不偏推定量best Linear Unbiased Estimator, BLUEとも呼ばれる。


説明

回帰係数のベクトルが多変量正規分布に従うという点は、回帰係数に関する仮説検定の際に特に重要であり、残差の等分散性独立性正規性が診断可能である必要がある。

証明

戦略:特に戦略と呼べるものはなく、全ては残差の正規性という仮定に従って容易に導出される。$X$ と$Y$ が確率変数ではなくデータ行列の形で固定されている、つまり定数であることを知れば、あとは全て行列計算である。

正規性 1

$$ \begin{align*} \hat{\beta} =& \left( X^{T} X \right)^{-1} X^{T} Y \\ =& \left( X^{T} X \right)^{-1} X^{T} \left( X \beta + \varepsilon \right) \\ =& I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \end{align*} $$ つまり、$\hat{\beta}$ は$\varepsilon$ の線形変換であり、$\varepsilon$ が多変量正規分布に従うと仮定すれば、$\hat{\beta}$ も多変量正規分布に従う。

平均

$$ \begin{align*} E \hat{\beta} =& E \left[ I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& E I_{1+p} \beta + E \left[ \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& E I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} E \varepsilon \\ =& E \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \mathbf{0} \\ =& \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} \end{align*} $$ それゆえ、$\hat{\beta}$ は$\beta$ の不偏推定量でもある。

分散 2 3

$$ \begin{align*} \operatorname{Var} \hat{\beta} =& \operatorname{Var} \left[ I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& \operatorname{Var} \left[ \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& \left( X^{T} X \right)^{-1} X^{T} \left( \operatorname{Var} \varepsilon \right) \left( \left( X^{T} X \right)^{-1} X^{T} \right)^{T} \\ =& \left( X^{T} X \right)^{-1} X^{T} \sigma^{2} I_{1+p} X \left( X^{T} X \right)^{-1} \\ =& \sigma^{2} \left( X^{T} X \right)^{-1} X^{T} X \left( X^{T} X \right)^{-1} \\ =& \sigma^{2} \left( X^{T} X \right)^{-1} \end{align*} $$ その間、$\hat{\beta}$ は最小二乗法を通じて導出されたので、$\beta$ の分散が小さい不偏推定量は存在しないため、最良不偏推定量である。