회귀계수의 정규성 증명
정리
$$ \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} $$ 독립변수가 $p$ 개인 $n$ 개의 데이터와 주어져 있을 때 선형다중회귀모델을 계획행렬로 나타내면 위와 같고, 간단히 $Y = X \beta + \varepsilon$ 라 나타내자. 잔차가 등분산성과 독립성과 정규성을 가진다는 것, 즉 $$ \varepsilon_{1} , \cdots , \varepsilon_{n} \overset{\text{iid}}{\sim} N \left( 0 , \sigma^{2} \right) \iff \varepsilon \sim N_{n} \left( \mathbf{0} , \sigma^{2} I_{n} \right) $$ 을 가정할 수 있을 때 회귀계수의 추정량 $$ \hat{\beta} = \left( \hat{\beta}_{0}, \hat{\beta}_{1}, \cdots, \hat{\beta}_{p} \right) = \left( X^{T} X \right)^{-1} X^{T} Y $$ 은 다음과 같은 다변량정규분포를 따른다. $$ \hat{\beta} \sim N_{1+p} \left( \beta , \sigma^{2} \left( X^{T} X \right)^{-1} \right) $$ 그 뿐만 아니라, $\hat{\beta}$ 는 $\beta$ 의 최선불편추정량이어서 최선선형불편추정량Best Linear Unbiased Estimator, BLUE이라 부르기도 한다.
설명
회귀계수의 벡터가 다변량정규분포를 따른다는 점은 회귀계수에 관련된 가설검정 때문에 특히 중요하며, 그 가정이 되는 잔차의 등분산성, 독립성, 정규성이 진단될 수 있어야 한다.
증명
전략: 딱히 전략이랄 게 없고 모든 게 잔차의 정규성이라는 가정에 따라 쉽게 유도된다. $X$ 와 $Y$ 가 확률변수가 아니라 행렬 폼으로 픽스된 데이터, 즉 상수라는 것만 알면 그냥 행렬계산이 전부다.
정규성 1
$$ \begin{align*} \hat{\beta} =& \left( X^{T} X \right)^{-1} X^{T} Y \\ =& \left( X^{T} X \right)^{-1} X^{T} \left( X \beta + \varepsilon \right) \\ =& I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \end{align*} $$ 즉, $\hat{\beta}$ 는 $\varepsilon$ 의 선형변환이고 $\varepsilon$ 이 다변량정규분포를 따른다고 가정했으므로 $\hat{\beta}$ 역시 다변량정규분포를 따른다.
■
평균
$$ \begin{align*} E \hat{\beta} =& E \left[ I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& E I_{1+p} \beta + E \left[ \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& E I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} E \varepsilon \\ =& E \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \mathbf{0} \\ =& \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} \end{align*} $$ 이에 따라, $\hat{\beta}$ 은 $\beta$ 의 불편추정량이기도 하다.
■
분산 2 3
$$ \begin{align*} \operatorname{Var} \hat{\beta} =& \operatorname{Var} \left[ I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& \operatorname{Var} \left[ \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& \left( X^{T} X \right)^{-1} X^{T} \left( \operatorname{Var} \varepsilon \right) \left( \left( X^{T} X \right)^{-1} X^{T} \right)^{T} \\ =& \left( X^{T} X \right)^{-1} X^{T} \sigma^{2} I_{1+p} X \left( X^{T} X \right)^{-1} \\ =& \sigma^{2} \left( X^{T} X \right)^{-1} X^{T} X \left( X^{T} X \right)^{-1} \\ =& \sigma^{2} \left( X^{T} X \right)^{-1} \end{align*} $$ 한편 $\hat{\beta}$ 는 최소제곱법을 통해 유도되었으므로 이보다 분산이 작은 $\beta$ 의 불편추정량은 존재하지 않아 최선불편추정량이다.
■
Hadi. (2006). Regression Analysis by Example(4th Edition): p82~84. ↩︎
https://stats.stackexchange.com/questions/44838/how-are-the-standard-errors-of-coefficients-calculated-in-a-regression/44841#44841 ↩︎