다중회귀분석에서 잔차의 분산에 대한 추정량과 회귀계수의 표준오차
정리
$$ \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} $$ 독립변수가 $p$ 개인 $n$ 개의 데이터와 주어져 있을 때 선형다중회귀모델을 계획행렬로 나타내면 위와 같고, 간단히 $Y = X \beta + \varepsilon$ 라 나타내자. 회귀계수의 추정량은 $\hat{\beta} = \left( X^{T} X \right)^{-1} X^{T} Y$ 이므로 적합치의 벡터 $\hat{Y}$ 는 $$ \hat{Y} = X \hat{\beta} = X \left( X^{T} X \right)^{-1} X^{T} Y $$ 임을 알고 있다. 편의상 $P := X \left( X^{T} X \right)^{-1} X^{T}$ 라 두자. 한편 잔차는 선형성을 가지는 것, 즉 $\varepsilon_{1} , \cdots , \varepsilon_{n}$ 의 모평균은 $0$ 이라 가정한다.
잔차제곱합의 기대값
- [1]: 만약 잔차가 등분산성도 가진다면, 즉 어떤 상수 $\sigma > 0$ 에 대해 $\varepsilon_{1} , \cdots , \varepsilon_{n} \sim \left( 0, \sigma^{2} \right)$ 라면 $SSE$sum of squared error 의 기대값은 다음과 같다. $$ E \left( SSE \right) = E \left[ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] = n \sigma^{2} - \sum_{i,j} E \left( y_{i} y_{j} \right) P_{ij} $$
잔차제곱합의 분산에 대한 불편추정량
- [2]: 만약 잔차가 독립성도 가진다면, 즉 $\varepsilon_{1} , \cdots , \varepsilon_{n} \overset{\text{iid}}{\sim} \left( 0, \sigma^{2} \right)$ 라면 $SSE$ 의 분산에 대한 불편추정량 $\widehat{\sigma^{2}}$ 은 다음과 같다. $$ E \widehat{\sigma^{2}} = E \left[ {{ 1 } \over { n-p-1 }} \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] = \sigma^{2} $$
회귀계수의 표준오차
- [3] 만약 잔차가 정규성도 가진다면, 즉 $\varepsilon_{1} , \cdots , \varepsilon_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right)$ 라면 회귀계수의 표준오차는 다음과 같다. $$ \text{s.e.} \left( \hat{\beta}_{k} \right) = \hat{\sigma} \sqrt{ \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } $$
설명
대부분의 통계학과 전공자들은 회귀분석을 학교에서 배울 당시에 프로젝트와 다른 과목에 치여 이러한 수리통계학적인 이론전개는 대강 넘어갈수밖에 없다. 실제로 노력하고자 하는 태도나 의지와는 별개로 학부 2~3학년 수준에서 이해하기는 어려운 내용이라 너무 억지로 공부하는 것도 능률이 좋지 않다고 본다. 증명이 초장부터 잘 이해가 안 된다 싶으면 좌절하지 말고 그냥 돌아서도 괜찮다.
다만 석사 이상으로 학업을 이어나가면서 학부과목을 복습한다면 마침 여기서 잘 정리된 내용을 보고 가는 것을 강하게 권장한다. 다중회귀분석의 모형진단에서 가장 중요한 것은 선형성이고, 그 다음은 등분산성, 그 다음은 독립성, 그 다음은 정규성인데 회귀분석에서의 t-검정 F-검정을 유도하기 위해서는 정확히 그 순서대로 가정이 추가되어야 한다. 직관이나 경험으로 그 서열을 이해하지 못할 수는 있지만, 그런 천재성이 없는 범인도 이론공부만 하면 납득할 수 있다는 점이 참 다행이다.
증명 1
전략: 별로 쉽지만은 않을 것이다. 일단 수리통계학은 둘째치더라도 최소한 행렬대수에 대해 충분히 공부가 되어있어야 한다. 정리의 스테이트먼트에서 간단하게 $P := X \left( X^{T} X \right)^{-1} X^{T}$ 라 나타내기로 했던 $P$ 가 멱등idempotent 혹은 사영작용소라는 것, 즉 $$ \begin{align*} P^{2} =& X \left( X^{T} X \right)^{-1} X^{T} \cdot X \left( X^{T} X \right)^{-1} X^{T} \\ =& X \left( X^{T} X \right)^{-1} \left( X^{T} X \right) \left( X^{T} X \right)^{-1} X^{T} \\ =& X \left( X^{T} X \right)^{-1} X^{T} \\ =& P \\ =& P^{T} \end{align*} $$ 이므로 $P^{2} = P = P^{T}$ 이고 그 여사영작용소 $(I-P)$ 역시 사영작용소이므로 $\left( I - P \right) ^{2} = \left( I - P \right)$ 이 성립한다는 사실을 보조정리로 사용할 것이다. 여기부터 너무 어렵게 느껴진다면 굳이 지금 본 증명을 보려 하지 말고 몇 년 더 공부하고 다시 돌아오는 걸 추천한다.
[1] 2
크로네커델타 $\delta_{ij} = \begin{cases} 1 & , \text{if } i = j \\ 0 & , \text{if } i \ne j \end{cases}$ 에 대해 다음이 성립한다. $$ \begin{align*} E \left[ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] =& E \left[ \left( Y - P Y \right)^{T} \left( Y - P Y \right) \right] \\ =& E \left[ \left[ \left( I_{1+p} - P \right) Y \right] ^{T} \left[ \left( I_{1+p} - P \right) Y \right] \right] \\ =& E \left[ Y^{T} \left( I_{1+p} - P \right)^{T} \left( I_{1+p} - P \right) Y \right] \\ =& E \left[ Y^{T} \left( I_{1+p} - P \right) \left( I_{1+p} - P \right) Y \right] \\ =& E \left[ Y^{T} \left( I_{1+p} - P \right)^{2} Y \right] \\ =& E \left[ Y^{T} \left( I_{1+p} - P \right) Y \right] \\ =& E \left[ \sum_{i,j} y_{i} y_{j} \left( \delta_{ij} - P_{ij} \right) \right] \\ =& \sum_{i,j} E \left[ y_{i} y_{j} \delta_{ij} \right] - \sum_{i,j} E \left[ y_{i} y_{j} P_{ij} \right] \\ =& \sum_{i} E \left[ y_{i}^{2} \right] - \sum_{i,j} E \left[ y_{i} y_{j} \right] P_{ij} \\ =& n \sigma^{2} - \sum_{i,j} E \left[ y_{i} y_{j} \right] P_{ij} \end{align*} $$
■
[2]
잔차끼리 독립이라는 것은 곧 $i \ne j$ 면 $y_{i}$ 와 $y_{j}$ 도 상관관계가 없다는 것이고, $i \ne j$ 일 때 $E \left[ y_{i} y_{j} \right] = 0$ 이고 $i = j$ 일 때 잔차의 선형성과 등분산성에 따라 $E \left[ y_{i} y_{j} \right] = \sigma^{2}$ 이므로 다음을 얻는다. $$ \begin{align*} E \left[ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] =& n \sigma^{2} - \sum_{i,j} E \left[ y_{i} y_{j} \right] P_{ij} \\ =& n \sigma^{2} - \sum_{i} \sigma^{2} P_{ii} \end{align*} $$
트레이스의 순환 성질: $$ \text{Tr}(ABC) = \text{Tr}(BCA) = \text{Tr}(CAB) $$
$\sum_{i} P_{ii}$ 는 $P$ 의 트레이스 $\text{tr} P$ 이므로 $$ \begin{align*} E \left[ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] =& n \sigma^{2} - \sigma^{2} \sum_{i} P_{ii} \\ =& \sigma^{2} \left( n - \text{tr} P \right) \\ =& \sigma^{2} \left( n - \text{tr} X \left( X^{T} X \right)^{-1} X^{T} \right) \\ =& \sigma^{2} \left( n - \text{tr} X^{T} X \left( X^{T} X \right)^{-1} \right) \\ =& \sigma^{2} \left( n - \text{tr} I_{1+p} \right) \\ =& \sigma^{2} \left( n - (1+p) \right) \end{align*} $$ 을 얻는다. 양변을 $(n-p-1)$ 로 나눠주면 $$ {{ 1 } \over { n-p-1 }} E \left[ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] = \sigma^{2} $$ 이므로 $\sigma^{2}$ 의 불편추정량 $\widehat{\sigma^{2}} = \sum \left( y_{i} - \hat{y}_{i} \right)^{2} / (n-p-1)$ 을 얻는다.
■
[3]
회귀계수벡터의 다변수정규성: $$ \hat{\beta} \sim N_{1+p} \left( \beta , \sigma^{2} \left( X^{T} X \right)^{-1} \right) $$
잔차가 iid로 정규분포를 따르면 $\hat{\beta} = \left( \hat{\beta}_{0} , \cdots , \hat{\beta}_{p} \right)$ 의 $k$번째 성분 $\hat{\beta}_{k}$ 의 마지널 확률 분포 역시 다음과 같은 일변량정규분포를 따른다. $$ \hat{\beta}_{k} \sim N \left( \beta_{k} , \sigma^{2} \left[ \left( X^{T} X \right)^{-1} \right]_{kk} \right) $$
표준오차의 일반적인 정의: 어떤 추정량estimator $T$ 에 대해, $T$ 의 표준편차의 추정치estimate를 표준오차standard error라 한다. $$ \text{s.e.} \left( T \right) := \sqrt{ \widehat{ \operatorname{Var} \left( T \right) } } $$
$\operatorname{Var} \hat{\beta}_{k} = \sigma^{2} \left[ \left( X^{T} X \right)^{-1} \right]_{kk}$ 이므로 다음을 얻는다. $$ \begin{align*} \text{s.e.} \left( \hat{\beta}_{k} \right) =& \sqrt{ \widehat{ \operatorname{Var} \left( \hat{\beta}_{k} \right) } } \\ =& \sqrt{ \widehat{\sigma^{2} \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } } \\ =& \sqrt{ {{ 1 } \over { n-p-1 }} \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } \\ =& \hat{\sigma} \sqrt{ \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } \end{align*} $$
■
Hadi. (2006). Regression Analysis by Example(4th Edition): p82~84. ↩︎
https://math.stackexchange.com/questions/2277739/why-is-the-denominator-n-p-1-in-estimation-of-variance ↩︎