y1y2⋮yn=11⋮1x11x12⋮x1n⋯⋯⋱⋯xp1xp2⋮xpnβ0β1⋮βp+ε1ε2⋮εnn 개의 데이터가 주어져 있고 p<n 이라고 할 때 선형다중회귀모델을 계획행렬로 나타내면 위와 같고, 간단히 Y=Xβ+ε 라 나타내자. β 에 대해 최소제곱인 추정량 벡터β=(β0,β1,⋯,βp)=(XTX)−1XTY
는 최선선형불편추정량이라 하자. 이제 평균 y, 적합치 y^k, SST, SSR, SSE 를 다음과 같이 정의한다.
y=y^k=SST=SSR=SSE=n1k=1∑nykβ0+β1xk1+⋯+βpxkpk=1∑n(yk−y)2k=1∑n(y^k−y)2k=1∑n(yk−y^k)2SST, SSR, SSE 는 다음과 같은 관계를 가진다.
SST=SSR+SSE
증명
단순회귀분석이면 몰라도 다중회귀분석에서는 보조정리의 증명을 위해서 행렬함수의 편미분 같은 게 등장하기 때문에 생각보다 어렵다. 실제로 인터넷에서 증명을 찾아봐도 ∑k=1nyk=∑k=1ny^k 라는 부분이 수식적으로 어떤 느낌인지만 보여주고 구렁이 담 넘어가듯 생략하는 경우가 대다수다1. 회귀분석을 막 배우는 단계라면 일단은 이런 게 있구나 하고 넘어가고 나중에 다시 찾아보는 것을 추천한다.
Part 1. SST=SSR+SSE+⋯
====SSTk=1∑n(yk−y)2k=1∑n(yk−y^k+y^k−y)2k=1∑n(y^k−y)2+k=1∑n(yk−y^k)2+2k=1∑n(yk−y^k)(y^k−y)SSR+SSE+2k=1∑n(yk−y^k)(y^k−y)
이므로 마지막 항
=k=1∑n(yk−y^k)(y^k−y)k=1∑n(yk−y^k)y^k−yk=1∑n(yk−y^k)
이 0 임을 보이면 증명은 끝난다.
Part 2. y∑k=1n(yk−y^k)=0
다중회귀분석에서 적합치의 합: β^ 가 최선선형불편추정량이면 yk 의 합과 적합치 y^k=1=β^0+∑j=1pβ^jxj 의 합은 같다:
k=1∑nyk=k=1∑ny^k
보조정리에 따르면 ∑k=1nyk=∑k=1ny^k 이므로 ∑k=1n(yk−y^k)=0 이어야 한다. 당장 이 포스트에서는 그냥 보조정리 써서 넘어가는 것처럼 보이지만 생각보다 핵심적인 부분이다. 보조정리의 증명은 반드시 숙지할 수 있도록 하자.
Part 3. ∑k=1n(yk−y^k)y^k=0
y^1⋮y^n=Xβ
적합치 y^1,⋯,y^n 의 벡터는 위와 같이 X 와 β 의 곱으로 나타낼 수 있다. 항등행렬E 와 영행렬O 에 대해 다음과 같이 수식을 전개하자.
===========k=1∑n(yk−y^k)y^k[y1−y^1⋯yn−y^n]y^1⋮y^n(YT−(Xβ)T)y^1⋮y^n(Y−Xβ)TXβ(Y−X(XTX)−1XTY)TXβ([E−X(XTX)−1XT]Y)TXβYT(E−X(XTX)−1XT)TXβYT(XT[E−X(XTX)−1XT])TβYT(XT−XTX(XTX)−1XT)TβYT(XT−XT)TβYTOTβ0
결과적으로, 다음의 등식을 얻는다.
SST=SSR+SSE