회귀계수의 정규성 증명
📂확률분포론 회귀계수의 정규성 증명 정리 [ y 1 y 2 ⋮ y n ] = [ 1 x 11 ⋯ x p 1 1 x 12 ⋯ x p 2 ⋮ ⋮ ⋱ ⋮ 1 x 1 n ⋯ x p n ] [ β 0 β 1 ⋮ β p ] + [ ε 1 ε 2 ⋮ ε n ]
\begin{bmatrix}
y_{1}
\\ y_{2}
\\ \vdots
\\ y_{n}
\end{bmatrix} = \begin{bmatrix}
1 & x_{11} & \cdots & x_{p1}
\\ 1 & x_{12} & \cdots & x_{p2}
\\ \vdots & \vdots & \ddots & \vdots
\\ 1 & x_{1n} & \cdots & x_{pn}
\end{bmatrix} \begin{bmatrix}
\beta_{0}
\\ \beta_{1}
\\ \vdots
\\ \beta_{p}
\end{bmatrix} + \begin{bmatrix}
\varepsilon_{1}
\\ \varepsilon_{2}
\\ \vdots
\\ \varepsilon_{n}
\end{bmatrix}
y 1 y 2 ⋮ y n = 1 1 ⋮ 1 x 11 x 12 ⋮ x 1 n ⋯ ⋯ ⋱ ⋯ x p 1 x p 2 ⋮ x p n β 0 β 1 ⋮ β p + ε 1 ε 2 ⋮ ε n
독립변수가 p p p 개인 n n n 개의 데이터 와 주어져 있을 때 선형다중회귀모델 을 계획행렬 로 나타내면 위와 같고, 간단히 Y = X β + ε Y = X \beta + \varepsilon Y = Xβ + ε 라 나타내자. 잔차 가 등분산성 과 독립성 과 정규성 을 가진다는 것, 즉
ε 1 , ⋯ , ε n ∼ iid N ( 0 , σ 2 ) ⟺ ε ∼ N n ( 0 , σ 2 I n )
\varepsilon_{1} , \cdots , \varepsilon_{n} \overset{\text{iid}}{\sim} N \left( 0 , \sigma^{2} \right) \iff \varepsilon \sim N_{n} \left( \mathbf{0} , \sigma^{2} I_{n} \right)
ε 1 , ⋯ , ε n ∼ iid N ( 0 , σ 2 ) ⟺ ε ∼ N n ( 0 , σ 2 I n )
을 가정할 수 있을 때 회귀계수의 추정량
β ^ = ( β ^ 0 , β ^ 1 , ⋯ , β ^ p ) = ( X T X ) − 1 X T Y
\hat{\beta} = \left( \hat{\beta}_{0}, \hat{\beta}_{1}, \cdots, \hat{\beta}_{p} \right) = \left( X^{T} X \right)^{-1} X^{T} Y
β ^ = ( β ^ 0 , β ^ 1 , ⋯ , β ^ p ) = ( X T X ) − 1 X T Y
은 다음과 같은 다변량정규분포를 따른다.
β ^ ∼ N 1 + p ( β , σ 2 ( X T X ) − 1 )
\hat{\beta} \sim N_{1+p} \left( \beta , \sigma^{2} \left( X^{T} X \right)^{-1} \right)
β ^ ∼ N 1 + p ( β , σ 2 ( X T X ) − 1 )
그 뿐만 아니라, β ^ \hat{\beta} β ^ 는 β \beta β 의 최선불편추정량 이어서 최선선형불편추정량 Best Linear Unbiased Estimator, BLUE 이라 부르기도 한다.
설명 회귀계수 의 벡터가 다변량정규분포를 따른다는 점은 회귀계수에 관련된 가설검정 때문에 특히 중요하며, 그 가정이 되는 잔차의 등분산성 , 독립성 , 정규성 이 진단될 수 있어야 한다.
증명 전략: 딱히 전략이랄 게 없고 모든 게 잔차의 정규성이라는 가정에 따라 쉽게 유도된다. X X X 와 Y Y Y 가 확률변수 가 아니라 행렬 폼으로 픽스된 데이터 , 즉 상수라는 것만 알면 그냥 행렬계산이 전부다.
정규성 β ^ = ( X T X ) − 1 X T Y = ( X T X ) − 1 X T ( X β + ε ) = I 1 + p β + ( X T X ) − 1 X T ε
\begin{align*}
\hat{\beta} =& \left( X^{T} X \right)^{-1} X^{T} Y
\\ =& \left( X^{T} X \right)^{-1} X^{T} \left( X \beta + \varepsilon \right)
\\ =& I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon
\end{align*}
β ^ = = = ( X T X ) − 1 X T Y ( X T X ) − 1 X T ( Xβ + ε ) I 1 + p β + ( X T X ) − 1 X T ε
즉, β ^ \hat{\beta} β ^ 는 ε \varepsilon ε 의 선형변환 이고 ε \varepsilon ε 이 다변량정규분포를 따른다고 가정했으므로 β ^ \hat{\beta} β ^ 역시 다변량정규분포를 따른다.
■
평균 E β ^ = E [ I 1 + p β + ( X T X ) − 1 X T ε ] = E I 1 + p β + E [ ( X T X ) − 1 X T ε ] = E I 1 + p β + ( X T X ) − 1 X T E ε = E [ β 0 β 1 ⋮ β p ] + 0 = [ β 0 β 1 ⋮ β p ]
\begin{align*}
E \hat{\beta} =& E \left[ I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right]
\\ =& E I_{1+p} \beta + E \left[ \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right]
\\ =& E I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} E \varepsilon
\\ =& E \begin{bmatrix}
\beta_{0}
\\ \beta_{1}
\\ \vdots
\\ \beta_{p}
\end{bmatrix} + \mathbf{0}
\\ =& \begin{bmatrix}
\beta_{0}
\\ \beta_{1}
\\ \vdots
\\ \beta_{p}
\end{bmatrix}
\end{align*}
E β ^ = = = = = E [ I 1 + p β + ( X T X ) − 1 X T ε ] E I 1 + p β + E [ ( X T X ) − 1 X T ε ] E I 1 + p β + ( X T X ) − 1 X T Eε E β 0 β 1 ⋮ β p + 0 β 0 β 1 ⋮ β p
이에 따라, β ^ \hat{\beta} β ^ 은 β \beta β 의 불편추정량 이기도 하다.
■
분산 Var β ^ = Var [ I 1 + p β + ( X T X ) − 1 X T ε ] = Var [ ( X T X ) − 1 X T ε ] = ( X T X ) − 1 X T ( Var ε ) ( ( X T X ) − 1 X T ) T = ( X T X ) − 1 X T σ 2 I 1 + p X ( X T X ) − 1 = σ 2 ( X T X ) − 1 X T X ( X T X ) − 1 = σ 2 ( X T X ) − 1
\begin{align*}
\operatorname{Var} \hat{\beta} =& \operatorname{Var} \left[ I_{1+p} \beta + \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right]
\\ =& \operatorname{Var} \left[ \left( X^{T} X \right)^{-1} X^{T} \varepsilon \right]
\\ =& \left( X^{T} X \right)^{-1} X^{T} \left( \operatorname{Var} \varepsilon \right) \left( \left( X^{T} X \right)^{-1} X^{T} \right)^{T}
\\ =& \left( X^{T} X \right)^{-1} X^{T} \sigma^{2} I_{1+p} X \left( X^{T} X \right)^{-1}
\\ =& \sigma^{2} \left( X^{T} X \right)^{-1} X^{T} X \left( X^{T} X \right)^{-1}
\\ =& \sigma^{2} \left( X^{T} X \right)^{-1}
\end{align*}
Var β ^ = = = = = = Var [ I 1 + p β + ( X T X ) − 1 X T ε ] Var [ ( X T X ) − 1 X T ε ] ( X T X ) − 1 X T ( Var ε ) ( ( X T X ) − 1 X T ) T ( X T X ) − 1 X T σ 2 I 1 + p X ( X T X ) − 1 σ 2 ( X T X ) − 1 X T X ( X T X ) − 1 σ 2 ( X T X ) − 1
한편 β ^ \hat{\beta} β ^ 는 최소제곱법 을 통해 유도되었으므로 이보다 분산이 작은 β \beta β 의 불편추정량은 존재하지 않아 최선불편추정량 이다.
■