logo

선형회귀분석에서 SST = SSR + SSE 증명 📂통계적분석

선형회귀분석에서 SST = SSR + SSE 증명

정리

[y1y2yn]=[1x11xp11x12xp21x1nxpn][β0β1βp]+[ε1ε2εn] \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} nn 개의 데이터가 주어져 있고 p<np < n 이라고 할 때 선형다중회귀모델계획행렬로 나타내면 위와 같고, 간단히 Y=Xβ+εY = X \beta + \varepsilon 라 나타내자. β\beta 에 대해 최소제곱추정량 벡터 β=(β0,β1,,βp)=(XTX)1XTY \beta = \left( \beta_{0} , \beta_{1} , \cdots , \beta_{p} \right) = \left( X^{T} X \right)^{-1} X^{T} Y 최선선형불편추정량이라 하자. 이제 평균 y\overline{y}, 적합치 y^k\hat{y}_{k}, SST\text{SST}, SSR\text{SSR}, SSE\text{SSE} 를 다음과 같이 정의한다. y=1nk=1nyky^k=β0+β1xk1++βpxkpSST=k=1n(yky)2SSR=k=1n(y^ky)2SSE=k=1n(yky^k)2 \begin{align*} \overline{y} =& {{1} \over {n}} \sum_{k=1}^{n} y_{k} \\ \hat{y}_{k} =& \beta_{0} + \beta_{1} x_{k1} + \cdots + \beta_{p} x_{kp} \\ \text{SST} =& \sum_{k=1}^{n} \left( y_{k} - \overline{y} \right)^{2} \\ \text{SSR} =& \sum_{k=1}^{n} \left( \hat{y}_{k} - \overline{y} \right)^{2} \\ \text{SSE} =& \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right)^{2} \end{align*} SST\text{SST}, SSR\text{SSR}, SSE\text{SSE} 는 다음과 같은 관계를 가진다. SST=SSR+SSE \text{SST} = \text{SSR} + \text{SSE}

증명

단순회귀분석이면 몰라도 다중회귀분석에서는 보조정리의 증명을 위해서 행렬함수편미분 같은 게 등장하기 때문에 생각보다 어렵다. 실제로 인터넷에서 증명을 찾아봐도 k=1nyk=k=1ny^k\sum_{k=1}^{n} y_{k} = \sum_{k=1}^{n} \hat{y}_{k} 라는 부분이 수식적으로 어떤 느낌인지만 보여주고 구렁이 담 넘어가듯 생략하는 경우가 대다수다1. 회귀분석을 막 배우는 단계라면 일단은 이런 게 있구나 하고 넘어가고 나중에 다시 찾아보는 것을 추천한다.


Part 1. SST=SSR+SSE+\text{SST} = \text{SSR} + \text{SSE} + \cdots

SST=k=1n(yky)2=k=1n(yky^k+y^ky)2=k=1n(y^ky)2+k=1n(yky^k)2+2k=1n(yky^k)(y^ky)=SSR+SSE+2k=1n(yky^k)(y^ky) \begin{align*} & \text{SST} \\ =& \sum_{k=1}^{n} \left( y_{k} - \overline{y} \right)^2 \\ =& \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} + \hat{y}_{k} - \overline{y} \right)^2 \\ =& \sum_{k=1}^{n} \left( \hat{y}_{k} - \overline{y} \right)^{2} + \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right)^{2} + 2 \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) \left( \hat{y}_{k} - \overline{y} \right) \\ =& \text{SSR} + \text{SSE} + 2 \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) \left( \hat{y}_{k} - \overline{y} \right) \end{align*} 이므로 마지막 항 k=1n(yky^k)(y^ky)=k=1n(yky^k)y^kyk=1n(yky^k) \begin{align*} & \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) \left( \hat{y}_{k} - \overline{y} \right) \\ =& \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) \hat{y}_{k} - \overline{y} \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) \end{align*} 00 임을 보이면 증명은 끝난다.


Part 2. yk=1n(yky^k)=0\overline{y} \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) = 0

다중회귀분석에서 적합치의 합: β^\hat{\beta} 가 최선선형불편추정량이면 yky_{k} 의 합과 적합치 y^k=1=β^0+j=1pβ^jxj\hat{y}_{k=1} = \hat{\beta}_{0} + \sum_{j=1}^{p} \hat{\beta}_{j} x_{j} 의 합은 같다: k=1nyk=k=1ny^k \sum_{k=1}^{n} y_{k} = \sum_{k=1}^{n} \hat{y}_{k}

보조정리에 따르면 k=1nyk=k=1ny^k\sum_{k=1}^{n} y_{k} = \sum_{k=1}^{n} \hat{y}_{k} 이므로 k=1n(yky^k)=0\sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) = 0 이어야 한다. 당장 이 포스트에서는 그냥 보조정리 써서 넘어가는 것처럼 보이지만 생각보다 핵심적인 부분이다. 보조정리의 증명은 반드시 숙지할 수 있도록 하자.


Part 3. k=1n(yky^k)y^k=0\sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) \hat{y}_{k} = 0

[y^1y^n]=Xβ \begin{bmatrix} \hat{y}_{1} \\ \vdots \\ \hat{y}_{n} \end{bmatrix} = X \beta 적합치 y^1,,y^n\hat{y}_{1} , \cdots , \hat{y}_{n} 의 벡터는 위와 같이 XXβ\beta 의 곱으로 나타낼 수 있다. 항등행렬 EE영행렬 OO 에 대해 다음과 같이 수식을 전개하자. k=1n(yky^k)y^k=[y1y^1yny^n][y^1y^n]=(YT(Xβ)T)[y^1y^n]=(YXβ)TXβ=(YX(XTX)1XTY)TXβ=([EX(XTX)1XT]Y)TXβ=YT(EX(XTX)1XT)TXβ=YT(XT[EX(XTX)1XT])Tβ=YT(XTXTX(XTX)1XT)Tβ=YT(XTXT)Tβ=YTOTβ=0 \begin{align*} & \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) \hat{y}_{k} \\ =& \begin{bmatrix} y_{1} - \hat{y}_{1} & \cdots & y_{n} - \hat{y}_{n} \end{bmatrix} \begin{bmatrix} \hat{y}_{1} \\ \vdots \\ \hat{y}_{n} \end{bmatrix} \\ =& \left( Y^{T} - \left( X \beta \right)^{T} \right) \begin{bmatrix} \hat{y}_{1} \\ \vdots \\ \hat{y}_{n} \end{bmatrix} \\ =& \left( Y - X \beta \right)^{T} X \beta \\ =& \left( Y - X \left( X^{T} X \right)^{-1} X^{T} Y \right)^{T} X \beta \\ =& \left( \left[ E - X \left( X^{T} X \right)^{-1} X^{T} \right] Y \right)^{T} X \beta \\ =& Y^{T} \left( E - X \left( X^{T} X \right)^{-1} X^{T} \right)^{T} X \beta \\ =& Y^{T} \left( X^{T} \left[ E - X \left( X^{T} X \right)^{-1} X^{T} \right] \right)^{T} \beta \\ =& Y^{T} \left( X^{T} - X^{T} X \left( X^{T} X \right)^{-1} X^{T} \right)^{T} \beta \\ =& Y^{T} \left( X^{T} - X^{T} \right)^{T} \beta \\ =& Y^{T} O^{T} \beta \\ =& 0 \end{align*} 결과적으로, 다음의 등식을 얻는다. SST=SSR+SSE \text{SST} = \text{SSR} + \text{SSE}