회귀계수의 정규성 증명 📂확률분포론

회귀계수의 정규성 증명

정리

$\begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix}$ 독립변수가 $p$ 개인 $n$ 개의 데이터와 주어져 있을 때 선형다중회귀모델을 계획행렬로 나타내면 위와 같고, 간단히 $Y = X \beta + \varepsilon$ 라 나타내자. 잔차가 등분산성과 독립성과 정규성을 가진다는 것, 즉 $\varepsilon_{1} , \cdots , \varepsilon_{n} \overset{\text{iid}}{\sim} N \left( 0 , \sigma^{2} \right) \iff \varepsilon \sim N_{n} \left( \mathbf{0} , \sigma^{2} I_{n} \right)$ 을 가정할 수 있을 때 회귀계수의 추정량 $\hat{\beta} = \left( \hat{\beta}_{0}, \hat{\beta}_{1}, \cdots, \hat{\beta}_{p} \right) = \left( X^{T} X \right)^{-1} X^{T} Y$ 은 다음과 같은 다변량정규분포를 따른다. $\hat{\beta} \sim N_{1+p} \left( \beta , \sigma^{2} \left( X^{T} X \right)^{-1} \right)$ 그 뿐만 아니라, $\hat{\beta}$ 는 $\beta$ 의 최선불편추정량이어서 최선선형불편추정량^{Best Linear Unbiased Estimator, BLUE}이라 부르기도 한다.

$N$ 은 정규분포를 나타낸다.
$N_{k}$ 는 다변량정규분포를 나타낸다.
$I_{k}$ 는 $k$ 차 항등행렬이다.

설명

회귀계수의 벡터가 다변량정규분포를 따른다는 점은 회귀계수에 관련된 가설검정 때문에 특히 중요하며, 그 가정이 되는 잔차의 등분산성, 독립성, 정규성이 진단될 수 있어야 한다.

증명

전략: 딱히 전략이랄 게 없고 모든 게 잔차의 정규성이라는 가정에 따라 쉽게 유도된다. $X$ 와 $Y$ 가 확률변수가 아니라 행렬 폼으로 픽스된 데이터, 즉 상수라는 것만 알면 그냥 행렬계산이 전부다.

정규성 ¹

$\begin{align*} \hat{\beta} =& \left( X^{T} X \right)^{-1} X^{T} Y \\ =& \left( X^{T} X \right)^{-1} X^{T} \left( X \beta + \varepsilon \right) \\ =& I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \end{align*}$ 즉, $\hat{\beta}$ 는 $\varepsilon$ 의 선형변환이고 $\varepsilon$ 이 다변량정규분포를 따른다고 가정했으므로 $\hat{\beta}$ 역시 다변량정규분포를 따른다.

■

평균

$\begin{align*} E \hat{\beta} =& E \left[ I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& E I_{1+p} \beta + E \left[ \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& E I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} E \varepsilon \\ =& E \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \mathbf{0} \\ =& \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} \end{align*}$ 이에 따라, $\hat{\beta}$ 은 $\beta$ 의 불편추정량이기도 하다.

■

분산 ² ³

$\begin{align*} \Var \hat{\beta} =& \Var \left[ I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& \Var \left[ \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& \left( X^{T} X \right)^{-1} X^{T} \left( \Var \varepsilon \right) \left( \left( X^{T} X \right)^{-1} X^{T} \right)^{T} \\ =& \left( X^{T} X \right)^{-1} X^{T} \sigma^{2} I_{1+p} X \left( X^{T} X \right)^{-1} \\ =& \sigma^{2} \left( X^{T} X \right)^{-1} X^{T} X \left( X^{T} X \right)^{-1} \\ =& \sigma^{2} \left( X^{T} X \right)^{-1} \end{align*}$ 한편 $\hat{\beta}$ 는 최소제곱법을 통해 유도되었으므로 이보다 분산이 작은 $\beta$ 의 불편추정량은 존재하지 않아 최선불편추정량이다.

■

https://qr.ae/pvkWof ↩︎
Hadi. (2006). Regression Analysis by Example(4th Edition): p82~84. ↩︎
https://stats.stackexchange.com/questions/44838/how-are-the-standard-errors-of-coefficients-calculated-in-a-regression/44841#44841 ↩︎

회귀계수의 정규성 증명

정리

설명

증명

정규성 1

평균

분산 2 3

정규성 ¹

분산 ² ³