y1y2⋮yn=11⋮1x11x12⋮x1n⋯⋯⋱⋯xp1xp2⋮xpnβ0β1⋮βp+ε1ε2⋮εn
독립변수가 p 개인 n 개의 데이터와 주어져 있을 때 선형다중회귀모델을 계획행렬로 나타내면 위와 같고, 간단히 Y=Xβ+ε 라 나타내자. 회귀계수의 추정량은 β^=(XTX)−1XTY 이므로 적합치의 벡터Y^ 는
Y^=Xβ^=X(XTX)−1XTY
임을 알고 있다. 편의상 P:=X(XTX)−1XT 라 두자. 한편 잔차는 선형성을 가지는 것, 즉 ε1,⋯,εn 의 모평균은 0 이라 가정한다.
잔차제곱합의 기대값
[1]: 만약 잔차가 등분산성도 가진다면, 즉 어떤 상수 σ>0 에 대해 ε1,⋯,εn∼(0,σ2) 라면 SSEsum of squared error 의 기대값은 다음과 같다.
E(SSE)=E[i=1∑n(yi−y^i)2]=nσ2−i,j∑E(yiyj)Pij
잔차제곱합의 분산에 대한 불편추정량
[2]: 만약 잔차가 독립성도 가진다면, 즉 ε1,⋯,εn∼iid(0,σ2) 라면 SSE 의 분산에 대한 불편추정량σ2 은 다음과 같다.
Eσ2=E[n−p−11i=1∑n(yi−y^i)2]=σ2
회귀계수의 표준오차
[3] 만약 잔차가 정규성도 가진다면, 즉 ε1,⋯,εn∼iidN(0,σ2) 라면 회귀계수의 표준오차는 다음과 같다.
s.e.(β^k)=σ^[(XTX)−1]kk
설명
대부분의 통계학과 전공자들은 회귀분석을 학교에서 배울 당시에 프로젝트와 다른 과목에 치여 이러한 수리통계학적인 이론전개는 대강 넘어갈수밖에 없다. 실제로 노력하고자 하는 태도나 의지와는 별개로 학부 2~3학년 수준에서 이해하기는 어려운 내용이라 너무 억지로 공부하는 것도 능률이 좋지 않다고 본다. 증명이 초장부터 잘 이해가 안 된다 싶으면 좌절하지 말고 그냥 돌아서도 괜찮다.
다만 석사 이상으로 학업을 이어나가면서 학부과목을 복습한다면 마침 여기서 잘 정리된 내용을 보고 가는 것을 강하게 권장한다. 다중회귀분석의 모형진단에서 가장 중요한 것은 선형성이고, 그 다음은 등분산성, 그 다음은 독립성, 그 다음은 정규성인데 회귀분석에서의 t-검정F-검정을 유도하기 위해서는 정확히 그 순서대로 가정이 추가되어야 한다. 직관이나 경험으로 그 서열을 이해하지 못할 수는 있지만, 그런 천재성이 없는 범인도 이론공부만 하면 납득할 수 있다는 점이 참 다행이다.
전략: 별로 쉽지만은 않을 것이다. 일단 수리통계학은 둘째치더라도 최소한 행렬대수에 대해 충분히 공부가 되어있어야 한다. 정리의 스테이트먼트에서 간단하게 P:=X(XTX)−1XT 라 나타내기로 했던 P 가 멱등idempotent 혹은 사영작용소라는 것, 즉
P2=====X(XTX)−1XT⋅X(XTX)−1XTX(XTX)−1(XTX)(XTX)−1XTX(XTX)−1XTPPT
이므로 P2=P=PT 이고 그 여사영작용소(I−P) 역시 사영작용소이므로 (I−P)2=(I−P) 이 성립한다는 사실을 보조정리로 사용할 것이다. 여기부터 너무 어렵게 느껴진다면 굳이 지금 본 증명을 보려 하지 말고 몇 년 더 공부하고 다시 돌아오는 걸 추천한다.
크로네커델타δij={10,if i=j,if i=j 에 대해 다음이 성립한다.
E[i=1∑n(yi−y^i)2]==========E[(Y−PY)T(Y−PY)]E[[(I1+p−P)Y]T[(I1+p−P)Y]]E[YT(I1+p−P)T(I1+p−P)Y]E[YT(I1+p−P)(I1+p−P)Y]E[YT(I1+p−P)2Y]E[YT(I1+p−P)Y]E[i,j∑yiyj(δij−Pij)]i,j∑E[yiyjδij]−i,j∑E[yiyjPij]i∑E[yi2]−i,j∑E[yiyj]Pijnσ2−i,j∑E[yiyj]Pij
■
[2]
잔차끼리 독립이라는 것은 곧 i=j 면 yi 와 yj 도 상관관계가 없다는 것이고, i=j 일 때 E[yiyj]=0 이고 i=j 일 때 잔차의 선형성과 등분산성에 따라 E[yiyj]=σ2 이므로 다음을 얻는다.
E[i=1∑n(yi−y^i)2]==nσ2−i,j∑E[yiyj]Pijnσ2−i∑σ2Pii
∑iPii 는 P 의 트레이스trP 이므로
E[i=1∑n(yi−y^i)2]======nσ2−σ2i∑Piiσ2(n−trP)σ2(n−trX(XTX)−1XT)σ2(n−trXTX(XTX)−1)σ2(n−trI1+p)σ2(n−(1+p))
을 얻는다. 양변을 (n−p−1) 로 나눠주면
n−p−11E[i=1∑n(yi−y^i)2]=σ2
이므로 σ2 의 불편추정량 σ2=∑(yi−y^i)2/(n−p−1) 을 얻는다.