적합치, 예측치, 잔차, 오차 📂데이터과학

적합치, 예측치, 잔차, 오차

정의 ¹

회귀분석 $Y \gets X_{1} + X_{2} + \cdots + X_{n}$ 으로 얻은 회귀식을 $y = \beta_{0} + \beta_{1} x_{1} + \beta_{2} x_{2} + \cdots + \beta_{n} x_{n}$ 이라고 하고 $i$번째 데이터를 $(y_{i} , x_{i1} , x_{i2} , \cdots , x_{in})$ 와 같이 나타내도록 하자.

평균^mean: $$ \displaystyle \overline{y} := {{1} \over {n}} \sum_{i=1}^{n} y_{i} $$
적합치^{fitted value}: $i$번째 데이터 $y_{i}$ 에 대해 $$ \hat{y}_{i} := \beta_{0} + \beta_{1} x_{i1} + \beta_{2} x_{i2} + \cdots + \beta_{n} x_{in} $$
예측치^{predicted value}: 새로운 데이터 $y_{0}$ 에 대해 $$ \hat{y}_{0} := \beta_{0} + \beta_{1} x_{01} + \beta_{2} x_{02} + \cdots + \beta_{n} x_{0n} $$
적합치에 따른 편차^{deviation due to Fit}: $$ \hat{y}_{i} - \overline{y} $$
잔차^residual: $$ y_{i} - \hat{y}_{i} $$
TSS(Total Sum of Squares) 혹은 SST(Sum of Squares Total): $$ \text{TSS} =\text{SST} := \sum_{i=1}^{n} ( y_{i} - \overline{y} )^2 $$
ESS(Explained Sum of Squares) 혹은 SSR(Sum of Squares due to Regression): $$ \text{ESS} = \text{SSR} := \sum_{i=1}^{n} ( \hat{y}_{i} - \overline{y} )^2 $$
RSS(Residual Sum of Squares) 혹은 SSE(Sum of squared Error): $$ \text{RSS} = \text{SSE} := \sum_{i=1}^{n} ( y_{i} - \hat{y}_{i} )^2 $$
중회귀계수^r-squared 혹은 설명력: $$ R^2 := {{ \text{ SSR } } \over { \text{ SST} }} $$

설명

적합치와 예측치는 수식적으로는 완전히 같으나 회귀식에 대입하는 데이터가 실제 데이터냐 아니냐의 차이가 있다. 여기서 $\hat{y_{i}}$ 을 구한다는 것은 우리에게 주어진 정보를 반영한 값을 계산하는 것이다. 그렇다면 적합치와 참값 $y_{i}$ 와의 차, 즉 5. 잔차는 우리가 더 이상 어찌 해볼 수 없는―자연스럽게 있을 수밖에 없는, 당연히 있어야할 에러다. 회귀분석은 그 제곱합을최소화하며, 회귀직선을 구한 후 잔차를 보고 회귀분석의 가정을 만족했는지 확인하는 것을 모형진단이라고 한다.
‘설명된 제곱합 ESS’란 ‘설명할 수 없는 제곱합 RSS’와 대비되는 표현일 뿐이다. 골때리는 것은 E와 R이 각각 Explained와 Regression, Error와 Residual로 찰떡같이 헷갈리게 쓰여져 있다는 점이다. $$ \text{TSS} = \text{SST} \\ \text{ESS} = \text{SSR} \\ \text{RSS} = \text{SSE} $$ 앞에 붙느냐 뒤에 붙느냐에 따라 $E$ 와 $R$ 이 바뀐다는 식의 암기는 추천하지 않는다. 그냥 스스로에게 편한 표기 하나를 정해서 수식으로 기억해두고, 자신이 아는 것과 정반대로 쓰였다면 약자도 정반대로 쓰일 수 있다는 팩트 정도로써만 기억하면 충분하다.
중회귀계수는 설명력이라고도 불리며, 분석이 데이터를 얼마나 잘 설명하고 있는지를 나타내는 척도가 된다. 한편 선형회귀에서는 $\text{SST} = \text{SSR} + \text{SSE}$ 임을 수식적으로 증명할 수 있는데, 이에 따르면 $\text{ESS}$ 이 높아질수록 $\text{RSS}$ 는 작아지며 $0 \le R^{2} \le 1$ 이다. 그러면 직관적으로 보았을 때 $$ R^2 = {{ \text{ SSR } } \over { \text{ SST} }} = {{ \text{ ESS } } \over { \text{ TSS } }} = {{\text{설명할 수 있는 에러}} \over {\text{전체 에러}}} $$ 이므로, 분석에서 데이터를 설명하는 비율로 이해할 수 있게 된다.

Hadi. (2006). Regression Analysis by Example(4th Edition): p40~42. ↩︎

적합치, 예측치, 잔차, 오차

정의 1

설명

정의 ¹