logo

다중회귀분석에서 잔차의 분산에 대한 추정량과 회귀계수의 표준오차 📂통계적분석

다중회귀분석에서 잔차의 분산에 대한 추정량과 회귀계수의 표준오차

정리

[y1y2yn]=[1x11xp11x12xp21x1nxpn][β0β1βp]+[ε1ε2εn] \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} 독립변수가 pp 개인 nn 개의 데이터와 주어져 있을 때 선형다중회귀모델계획행렬로 나타내면 위와 같고, 간단히 Y=Xβ+εY = X \beta + \varepsilon 라 나타내자. 회귀계수의 추정량β^=(XTX)1XTY\hat{\beta} = \left( X^{T} X \right)^{-1} X^{T} Y 이므로 적합치벡터 Y^\hat{Y}Y^=Xβ^=X(XTX)1XTY \hat{Y} = X \hat{\beta} = X \left( X^{T} X \right)^{-1} X^{T} Y 임을 알고 있다. 편의상 P:=X(XTX)1XTP := X \left( X^{T} X \right)^{-1} X^{T} 라 두자. 한편 잔차선형성을 가지는 것, 즉 ε1,,εn\varepsilon_{1} , \cdots , \varepsilon_{n} 의 모평균은 00 이라 가정한다.

잔차제곱합의 기대값

  • [1]: 만약 잔차등분산성도 가진다면, 즉 어떤 상수 σ>0\sigma > 0 에 대해 ε1,,εn(0,σ2)\varepsilon_{1} , \cdots , \varepsilon_{n} \sim \left( 0, \sigma^{2} \right) 라면 SSESSEsum of squared error기대값은 다음과 같다. E(SSE)=E[i=1n(yiy^i)2]=nσ2i,jE(yiyj)Pij E \left( SSE \right) = E \left[ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] = n \sigma^{2} - \sum_{i,j} E \left( y_{i} y_{j} \right) P_{ij}

잔차제곱합의 분산에 대한 불편추정량

  • [2]: 만약 잔차독립성도 가진다면, 즉 ε1,,εniid(0,σ2)\varepsilon_{1} , \cdots , \varepsilon_{n} \overset{\text{iid}}{\sim} \left( 0, \sigma^{2} \right) 라면 SSESSE분산에 대한 불편추정량 σ2^\widehat{\sigma^{2}} 은 다음과 같다. Eσ2^=E[1np1i=1n(yiy^i)2]=σ2 E \widehat{\sigma^{2}} = E \left[ {{ 1 } \over { n-p-1 }} \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] = \sigma^{2}

회귀계수의 표준오차

  • [3] 만약 잔차정규성도 가진다면, 즉 ε1,,εniidN(0,σ2)\varepsilon_{1} , \cdots , \varepsilon_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right) 라면 회귀계수표준오차는 다음과 같다. s.e.(β^k)=σ^[(XTX)1]kk \text{s.e.} \left( \hat{\beta}_{k} \right) = \hat{\sigma} \sqrt{ \left[ \left( X^{T} X \right)^{-1} \right]_{kk} }

설명

대부분의 통계학과 전공자들은 회귀분석을 학교에서 배울 당시에 프로젝트와 다른 과목에 치여 이러한 수리통계학적인 이론전개는 대강 넘어갈수밖에 없다. 실제로 노력하고자 하는 태도나 의지와는 별개로 학부 2~3학년 수준에서 이해하기는 어려운 내용이라 너무 억지로 공부하는 것도 능률이 좋지 않다고 본다. 증명이 초장부터 잘 이해가 안 된다 싶으면 좌절하지 말고 그냥 돌아서도 괜찮다.

다만 석사 이상으로 학업을 이어나가면서 학부과목을 복습한다면 마침 여기서 잘 정리된 내용을 보고 가는 것을 강하게 권장한다. 다중회귀분석모형진단에서 가장 중요한 것은 선형성이고, 그 다음은 등분산성, 그 다음은 독립성, 그 다음은 정규성인데 회귀분석에서의 t-검정 F-검정을 유도하기 위해서는 정확히 그 순서대로 가정이 추가되어야 한다. 직관이나 경험으로 그 서열을 이해하지 못할 수는 있지만, 그런 천재성이 없는 범인도 이론공부만 하면 납득할 수 있다는 점이 참 다행이다.

증명 1

전략: 별로 쉽지만은 않을 것이다. 일단 수리통계학은 둘째치더라도 최소한 행렬대수에 대해 충분히 공부가 되어있어야 한다. 정리의 스테이트먼트에서 간단하게 P:=X(XTX)1XTP := X \left( X^{T} X \right)^{-1} X^{T} 라 나타내기로 했던 PP 가 멱등idempotent 혹은 사영작용소라는 것, 즉 P2=X(XTX)1XTX(XTX)1XT=X(XTX)1(XTX)(XTX)1XT=X(XTX)1XT=P=PT \begin{align*} P^{2} =& X \left( X^{T} X \right)^{-1} X^{T} \cdot X \left( X^{T} X \right)^{-1} X^{T} \\ =& X \left( X^{T} X \right)^{-1} \left( X^{T} X \right) \left( X^{T} X \right)^{-1} X^{T} \\ =& X \left( X^{T} X \right)^{-1} X^{T} \\ =& P \\ =& P^{T} \end{align*} 이므로 P2=P=PTP^{2} = P = P^{T} 이고 그 여사영작용소 (IP)(I-P) 역시 사영작용소이므로 (IP)2=(IP)\left( I - P \right) ^{2} = \left( I - P \right) 이 성립한다는 사실을 보조정리로 사용할 것이다. 여기부터 너무 어렵게 느껴진다면 굳이 지금 본 증명을 보려 하지 말고 몇 년 더 공부하고 다시 돌아오는 걸 추천한다.

[1] 2

크로네커델타 δij={1,if i=j0,if ij\delta_{ij} = \begin{cases} 1 & , \text{if } i = j \\ 0 & , \text{if } i \ne j \end{cases} 에 대해 다음이 성립한다. E[i=1n(yiy^i)2]=E[(YPY)T(YPY)]=E[[(I1+pP)Y]T[(I1+pP)Y]]=E[YT(I1+pP)T(I1+pP)Y]=E[YT(I1+pP)(I1+pP)Y]=E[YT(I1+pP)2Y]=E[YT(I1+pP)Y]=E[i,jyiyj(δijPij)]=i,jE[yiyjδij]i,jE[yiyjPij]=iE[yi2]i,jE[yiyj]Pij=nσ2i,jE[yiyj]Pij \begin{align*} E \left[ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] =& E \left[ \left( Y - P Y \right)^{T} \left( Y - P Y \right) \right] \\ =& E \left[ \left[ \left( I_{1+p} - P \right) Y \right] ^{T} \left[ \left( I_{1+p} - P \right) Y \right] \right] \\ =& E \left[ Y^{T} \left( I_{1+p} - P \right)^{T} \left( I_{1+p} - P \right) Y \right] \\ =& E \left[ Y^{T} \left( I_{1+p} - P \right) \left( I_{1+p} - P \right) Y \right] \\ =& E \left[ Y^{T} \left( I_{1+p} - P \right)^{2} Y \right] \\ =& E \left[ Y^{T} \left( I_{1+p} - P \right) Y \right] \\ =& E \left[ \sum_{i,j} y_{i} y_{j} \left( \delta_{ij} - P_{ij} \right) \right] \\ =& \sum_{i,j} E \left[ y_{i} y_{j} \delta_{ij} \right] - \sum_{i,j} E \left[ y_{i} y_{j} P_{ij} \right] \\ =& \sum_{i} E \left[ y_{i}^{2} \right] - \sum_{i,j} E \left[ y_{i} y_{j} \right] P_{ij} \\ =& n \sigma^{2} - \sum_{i,j} E \left[ y_{i} y_{j} \right] P_{ij} \end{align*}

[2]

잔차끼리 독립이라는 것은 곧 iji \ne jyiy_{i}yjy_{j}상관관계가 없다는 것이고, iji \ne j 일 때 E[yiyj]=0E \left[ y_{i} y_{j} \right] = 0 이고 i=ji = j 일 때 잔차의 선형성과 등분산성에 따라 E[yiyj]=σ2E \left[ y_{i} y_{j} \right] = \sigma^{2} 이므로 다음을 얻는다. E[i=1n(yiy^i)2]=nσ2i,jE[yiyj]Pij=nσ2iσ2Pii \begin{align*} E \left[ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] =& n \sigma^{2} - \sum_{i,j} E \left[ y_{i} y_{j} \right] P_{ij} \\ =& n \sigma^{2} - \sum_{i} \sigma^{2} P_{ii} \end{align*}

트레이스의 순환 성질: Tr(ABC)=Tr(BCA)=Tr(CAB) \text{Tr}(ABC) = \text{Tr}(BCA) = \text{Tr}(CAB)

iPii\sum_{i} P_{ii}PP트레이스 trP\text{tr} P 이므로 E[i=1n(yiy^i)2]=nσ2σ2iPii=σ2(ntrP)=σ2(ntrX(XTX)1XT)=σ2(ntrXTX(XTX)1)=σ2(ntrI1+p)=σ2(n(1+p)) \begin{align*} E \left[ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] =& n \sigma^{2} - \sigma^{2} \sum_{i} P_{ii} \\ =& \sigma^{2} \left( n - \text{tr} P \right) \\ =& \sigma^{2} \left( n - \text{tr} X \left( X^{T} X \right)^{-1} X^{T} \right) \\ =& \sigma^{2} \left( n - \text{tr} X^{T} X \left( X^{T} X \right)^{-1} \right) \\ =& \sigma^{2} \left( n - \text{tr} I_{1+p} \right) \\ =& \sigma^{2} \left( n - (1+p) \right) \end{align*} 을 얻는다. 양변을 (np1)(n-p-1) 로 나눠주면 1np1E[i=1n(yiy^i)2]=σ2 {{ 1 } \over { n-p-1 }} E \left[ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] = \sigma^{2} 이므로 σ2\sigma^{2} 의 불편추정량 σ2^=(yiy^i)2/(np1)\widehat{\sigma^{2}} = \sum \left( y_{i} - \hat{y}_{i} \right)^{2} / (n-p-1) 을 얻는다.

[3]

회귀계수벡터의 다변수정규성: β^N1+p(β,σ2(XTX)1) \hat{\beta} \sim N_{1+p} \left( \beta , \sigma^{2} \left( X^{T} X \right)^{-1} \right)

잔차가 iid정규분포를 따르면 β^=(β^0,,β^p)\hat{\beta} = \left( \hat{\beta}_{0} , \cdots , \hat{\beta}_{p} \right)kk번째 성분 β^k\hat{\beta}_{k}마지널 확률 분포 역시 다음과 같은 일변량정규분포를 따른다. β^kN(βk,σ2[(XTX)1]kk) \hat{\beta}_{k} \sim N \left( \beta_{k} , \sigma^{2} \left[ \left( X^{T} X \right)^{-1} \right]_{kk} \right)

표준오차의 일반적인 정의: 어떤 추정량estimator TT 에 대해, TT표준편차의 추정치estimate표준오차standard error라 한다. s.e.(T):=Var(T)^ \text{s.e.} \left( T \right) := \sqrt{ \widehat{ \operatorname{Var} \left( T \right) } }

Varβ^k=σ2[(XTX)1]kk\operatorname{Var} \hat{\beta}_{k} = \sigma^{2} \left[ \left( X^{T} X \right)^{-1} \right]_{kk} 이므로 다음을 얻는다. s.e.(β^k)=Var(β^k)^=σ2[(XTX)1]kk^=1np1i=1n(yiy^i)2[(XTX)1]kk=σ^[(XTX)1]kk \begin{align*} \text{s.e.} \left( \hat{\beta}_{k} \right) =& \sqrt{ \widehat{ \operatorname{Var} \left( \hat{\beta}_{k} \right) } } \\ =& \sqrt{ \widehat{\sigma^{2} \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } } \\ =& \sqrt{ {{ 1 } \over { n-p-1 }} \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } \\ =& \hat{\sigma} \sqrt{ \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } \end{align*}