logo

회귀계수의 정의와 추정량의 공식 유도 📂통계적분석

회귀계수의 정의와 추정량의 공식 유도

정의 1

Y=β0+β1X1++βpXp+ε Y = \beta_{0} + \beta_{1} X_{1} + \cdots + \beta_{p} X_{p} + \varepsilon 다중회귀분석에서 주어진 pp 개의 독립변수 X1,,XpX_{1} , \cdots , X_{p} 에 대해 위와 같은 선형모델linear model을 세울 때, β0,β1,,βp\beta_{0} , \beta_{1} , \cdots , \beta_{p}회귀계수regression Coefficient라 한다. YY 는 종속변수, ε\varepsilon 은 랜덤하게 분포된 에러를 의미한다.

공식

[y1y2yn]=[1x11xp11x12xp21x1nxpn][β0β1βp]+[ε1ε2εn] \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} nn 개의 데이터가 주어져 있고 p<np < n 이라고 할 때 선형다중회귀모델계획행렬로 나타내면 위와 같고, 간단히 Y=Xβ+εY = X \beta + \varepsilon 라 나타내자. β\beta 에 대해 최소제곱추정량 벡터 β^\hat{\beta} 는 다음과 같다. β^=[β^0β^1β^p]=(XTX)1XTY \hat{\beta} = \begin{bmatrix} \hat{\beta}_{0} \\ \hat{\beta}_{1} \\ \vdots \\ \hat{\beta}_{p} \end{bmatrix} = \left( X^{T} X \right)^{-1} X^{T} Y 그뿐만 아니라, β^\hat{\beta}β\beta최선불편추정량이어서 최선선형불편추정량Best Linear Unbiased Estimator, BLUE이라 부르기도 한다.

유도 2 3

우리의 목표는 ε22=k=0nεk=[ε0ε1εn][ε0ε1εn]=εTε \left\| \varepsilon \right\|_{2}^{2} = \sum_{k=0}^{n} \varepsilon_{k} = \begin{bmatrix} \varepsilon_{0} & \varepsilon_{1} & \cdots & \varepsilon_{n} \end{bmatrix} \begin{bmatrix} \varepsilon_{0} \\ \varepsilon_{1} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} = \varepsilon^{T} \varepsilon 최소화하는 것이다. ε=YXβ\varepsilon = Y - X \beta 이므로 εTε=(YXβ)T(YXβ)\varepsilon^{T} \varepsilon = \left( Y - X \beta \right)^{T} \left( Y - X \beta \right) 을 최소화하는 β\beta 를 찾으면 된다.

잔차제곱합의 그래디언트: f(s):=(yXs)TR(yXs) f \left( \mathbf{s} \right) := \left( \mathbf{y} - X \mathbf{s} \right)^{T} R \left( \mathbf{y} - X \mathbf{s} \right) 라고 하자. RR항등행렬이면 다음을 얻는다. f(s)s=2XT(yXs) {{ \partial f \left( \mathbf{s} \right) } \over { \partial \mathbf{s} }} = - 2 X^{T} \left( \mathbf{y} - X \mathbf{s} \right)

양변을 β\beta편미분βεTε=2XT(YXβ)=2XT(YXβ)=2XTY+2XTXβ \begin{align*} {{ \partial } \over { \partial \beta }} \varepsilon^{T} \varepsilon =& - 2 X^{T} \left( Y - X \beta \right) \\ = & - 2 X^{T} \left( Y - X \beta \right) \\ = & - 2 X^{T} Y + 2 X^{T} X \beta \end{align*} 영벡터 0\mathbf{0} 이 되게끔 하는 β^\hat{\beta} 는 다음의 꼴이 된다. β^=arg minβεTε=(XTX)1XTY \hat{\beta} = \argmin_{\beta} \varepsilon^{T} \varepsilon = \left( X^{T} X \right)^{-1} X^{T} Y 한편 β^\hat{\beta}β\beta 에 대한 불편추정량임을 쉽게 보일 수 있고, 최소제곱법을 통해 유도되었으므로 이보다 분산이 작은 β\beta 의 불편추정량은 존재하지 않아 최선불편추정량이다.


만약 유도과정에서 β\beta 로 미분하는 부분이 별로 마음에 들지 않는다면 행렬대수로 접근하는 대안도 있다. 행렬대수에서의 최소제곱법에서 XY=XXβ^ X^{\ast} Y = X^{\ast} X \hat{\beta} 를 만족하는 β^\hat{\beta} 이 최소제곱해가 된다는 점에서, XRn×pX \in \mathbb{R}^{n \times p} 이므로 X=XTX^{\ast} = X^{T} 이고 결론적으로 β^=(XTX)1XTY\hat{\beta} = \left( X^{T} X \right)^{-1} X^{T} Y 을 얻는다.

따름정리

β^\hat{\beta} 가 최선선형불편추정량이면 yky_{k} 의 합과 적합치 y^k=1=β^0+j=1pβ^jxj\hat{y}_{k=1} = \hat{\beta}_{0} + \sum_{j=1}^{p} \hat{\beta}_{j} x_{j} 의 합은 같다: k=1nyk=k=1ny^k \sum_{k=1}^{n} y_{k} = \sum_{k=1}^{n} \hat{y}_{k}

증명

본 공식의 증명에서 β^\hat{\beta} 가 최선선형불편추정량이라는 것은, 0=2XTY+2XTXβ^    0=XT(YXβ^)    0=XT[y1y^1yny^n] \begin{align*} & \mathbf{0} = - 2 X^{T} Y + 2 X^{T} X \hat{\beta} \\ \implies & \mathbf{0} = X^{T} \left( Y - X \hat{\beta} \right) \\ \implies & \mathbf{0} = X^{T} \begin{bmatrix} y_{1} - \hat{y}_{1} \\ \vdots \\ y_{n} - \hat{y}_{n} \end{bmatrix} \end{align*} 이 성립한다는 것이다. XX 가 계획행렬이므로 XTX^{T} 의 첫번째 행은 모든 성분이 111행렬으로 볼 수 있다. XTX^{T} 의 첫번째 행과 YXβ^Y - X \hat{\beta} 의 곱만 살펴보면 다음과 같다. 0=[11][y1y^1yny^n]    0=(y1y^1)++(yny^n)    0=k=1nykk=1ny^k \begin{align*} & 0 = \begin{bmatrix} 1 & \cdots & 1 \end{bmatrix} \begin{bmatrix} y_{1} - \hat{y}_{1} \\ \vdots \\ y_{n} - \hat{y}_{n} \end{bmatrix} \\ \implies & 0 = \left( y_{1} - \hat{y}_{1} \right) + \cdots + \left( y_{n} - \hat{y}_{n} \right) \\ \implies & 0 = \sum_{k=1}^{n} y_{k} - \sum_{k=1}^{n} \hat{y}_{k} \end{align*} 결과적으로, 다음을 얻는다. k=1nyk=k=1ny^k \sum_{k=1}^{n} y_{k} = \sum_{k=1}^{n} \hat{y}_{k}

이 따름정리는 선형회귀에서 SST=SSR+SSE\text{SST} = \text{SSR} + \text{SSE} 임을 증명할 때 쓰인다.

같이보기


  1. Hadi. (2006). Regression Analysis by Example(4th Edition): p53. ↩︎

  2. Hadi. (2006). Regression Analysis by Example(4th Edition): p82~84. ↩︎

  3. https://www.stat.purdue.edu/~boli/stat512/lectures/topic3.pdf ↩︎