적합치, 예측치, 잔차, 오차
📂통계적분석적합치, 예측치, 잔차, 오차
정의
회귀분석 Y←X1+X2+⋯+Xn 으로 얻은 회귀식을 y=β0+β1x1+β2x2+⋯+βnxn 이라고 하고 i번째 데이터를 (yi,xi1,xi2,⋯,xin) 와 같이 나타내도록 하자.
- 평균mean:
y:=n1i=1∑nyi
- 적합치fitted value: i번째 데이터 yi 에 대해
y^i:=β0+β1xi1+β2xi2+⋯+βnxin
- 예측치predicted value: 새로운 데이터 y0 에 대해
y^0:=β0+β1x01+β2x02+⋯+βnx0n
- 적합치에 따른 편차deviation due to Fit:
y^i−y
- 잔차residual:
yi−y^i
- TSS(Total Sum of Squares) 혹은 SST(Sum of Squares Total):
TSS=SST:=i=1∑n(yi−y)2
- ESS(Explained Sum of Squares) 혹은 SSR(Sum of Squares due to Regression):
ESS=SSR:=i=1∑n(y^i−y)2
- RSS(Residual Sum of Squares) 혹은 SSE(Sum of squared Error):
RSS=SSE:=i=1∑n(yi−y^i)2
- 중회귀계수r-squared 혹은 설명력:
R2:= SST SSR
설명
- 적합치와 예측치는 수식적으로는 완전히 같으나 회귀식에 대입하는 데이터가 실제 데이터냐 아니냐의 차이가 있다. 여기서 yi^ 을 구한다는 것은 우리에게 주어진 정보를 반영한 값을 계산하는 것이다. 그렇다면 적합치와 참값 yi 와의 차, 즉 5. 잔차는 우리가 더 이상 어찌 해볼 수 없는―자연스럽게 있을 수밖에 없는, 당연히 있어야할 에러다. 회귀분석은 그 제곱합을최소화하며, 회귀직선을 구한 후 잔차를 보고 회귀분석의 가정을 만족했는지 확인하는 것을 모형진단이라고 한다.
- ‘설명된 제곱합 ESS’란 ‘설명할 수 없는 제곱합 RSS’와 대비되는 표현일 뿐이다. 골때리는 것은 E와 R이 각각 Explained와 Regression, Error와 Residual로 찰떡같이 헷갈리게 쓰여져 있다는 점이다.
TSS=SSTESS=SSRRSS=SSE
앞에 붙느냐 뒤에 붙느냐에 따라 E 와 R 이 바뀐다는 식의 암기는 추천하지 않는다. 그냥 스스로에게 편한 표기 하나를 정해서 수식으로 기억해두고, 자신이 아는 것과 정반대로 쓰였다면 약자도 정반대로 쓰일 수 있다는 팩트 정도로써만 기억하면 충분하다.
- 중회귀계수는 설명력이라고도 불리며, 분석이 데이터를 얼마나 잘 설명하고 있는지를 나타내는 척도가 된다. 한편 선형회귀에서는 SST=SSR+SSE 임을 수식적으로 증명할 수 있는데, 이에 따르면 ESS 이 높아질수록 RSS 는 작아지며 0≤R2≤1 이다. 그러면 직관적으로 보았을 때
R2= SST SSR = TSS ESS =전체 에러설명할 수 있는 에러
이므로, 분석에서 데이터를 설명하는 비율로 이해할 수 있게 된다.