logo

회귀계수의 정규성 증명 📂확률분포론

회귀계수의 정규성 증명

정리

[y1y2yn]=[1x11xp11x12xp21x1nxpn][β0β1βp]+[ε1ε2εn] \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} 독립변수가 pp 개인 nn 개의 데이터와 주어져 있을 때 선형다중회귀모델계획행렬로 나타내면 위와 같고, 간단히 Y=Xβ+εY = X \beta + \varepsilon 라 나타내자. 잔차등분산성독립성정규성을 가진다는 것, 즉 ε1,,εniidN(0,σ2)    εNn(0,σ2In) \varepsilon_{1} , \cdots , \varepsilon_{n} \overset{\text{iid}}{\sim} N \left( 0 , \sigma^{2} \right) \iff \varepsilon \sim N_{n} \left( \mathbf{0} , \sigma^{2} I_{n} \right) 을 가정할 수 있을 때 회귀계수의 추정량 β^=(β^0,β^1,,β^p)=(XTX)1XTY \hat{\beta} = \left( \hat{\beta}_{0}, \hat{\beta}_{1}, \cdots, \hat{\beta}_{p} \right) = \left( X^{T} X \right)^{-1} X^{T} Y 은 다음과 같은 다변량정규분포를 따른다. β^N1+p(β,σ2(XTX)1) \hat{\beta} \sim N_{1+p} \left( \beta , \sigma^{2} \left( X^{T} X \right)^{-1} \right) 그 뿐만 아니라, β^\hat{\beta}β\beta최선불편추정량이어서 최선선형불편추정량Best Linear Unbiased Estimator, BLUE이라 부르기도 한다.


설명

회귀계수의 벡터가 다변량정규분포를 따른다는 점은 회귀계수에 관련된 가설검정 때문에 특히 중요하며, 그 가정이 되는 잔차의 등분산성, 독립성, 정규성이 진단될 수 있어야 한다.

증명

전략: 딱히 전략이랄 게 없고 모든 게 잔차의 정규성이라는 가정에 따라 쉽게 유도된다. XXYY확률변수가 아니라 행렬 폼으로 픽스된 데이터, 즉 상수라는 것만 알면 그냥 행렬계산이 전부다.

정규성 1

β^=(XTX)1XTY=(XTX)1XT(Xβ+ε)=I1+pβ+(XTX)1XTε \begin{align*} \hat{\beta} =& \left( X^{T} X \right)^{-1} X^{T} Y \\ =& \left( X^{T} X \right)^{-1} X^{T} \left( X \beta + \varepsilon \right) \\ =& I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \end{align*} 즉, β^\hat{\beta}ε\varepsilon선형변환이고 ε\varepsilon 이 다변량정규분포를 따른다고 가정했으므로 β^\hat{\beta} 역시 다변량정규분포를 따른다.

평균

Eβ^=E[I1+pβ+(XTX)1XTε]=EI1+pβ+E[(XTX)1XTε]=EI1+pβ+(XTX)1XTEε=E[β0β1βp]+0=[β0β1βp] \begin{align*} E \hat{\beta} =& E \left[ I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& E I_{1+p} \beta + E \left[ \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& E I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} E \varepsilon \\ =& E \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \mathbf{0} \\ =& \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} \end{align*} 이에 따라, β^\hat{\beta}β\beta불편추정량이기도 하다.

분산 2 3

Varβ^=Var[I1+pβ+(XTX)1XTε]=Var[(XTX)1XTε]=(XTX)1XT(Varε)((XTX)1XT)T=(XTX)1XTσ2I1+pX(XTX)1=σ2(XTX)1XTX(XTX)1=σ2(XTX)1 \begin{align*} \operatorname{Var} \hat{\beta} =& \operatorname{Var} \left[ I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& \operatorname{Var} \left[ \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right] \\ =& \left( X^{T} X \right)^{-1} X^{T} \left( \operatorname{Var} \varepsilon \right) \left( \left( X^{T} X \right)^{-1} X^{T} \right)^{T} \\ =& \left( X^{T} X \right)^{-1} X^{T} \sigma^{2} I_{1+p} X \left( X^{T} X \right)^{-1} \\ =& \sigma^{2} \left( X^{T} X \right)^{-1} X^{T} X \left( X^{T} X \right)^{-1} \\ =& \sigma^{2} \left( X^{T} X \right)^{-1} \end{align*} 한편 β^\hat{\beta}최소제곱법을 통해 유도되었으므로 이보다 분산이 작은 β\beta 의 불편추정량은 존재하지 않아 최선불편추정량이다.