회귀계수의 정의와 추정량의 공식 유도
정의 1
$$ Y = \beta_{0} + \beta_{1} X_{1} + \cdots + \beta_{p} X_{p} + \varepsilon $$ 다중회귀분석에서 주어진 $p$ 개의 독립변수 $X_{1} , \cdots , X_{p}$ 에 대해 위와 같은 선형모델linear model을 세울 때, $\beta_{0} , \beta_{1} , \cdots , \beta_{p}$ 를 회귀계수regression Coefficient라 한다. $Y$ 는 종속변수, $\varepsilon$ 은 랜덤하게 분포된 에러를 의미한다.
공식
$$ \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} $$ $n$ 개의 데이터가 주어져 있고 $p < n$ 이라고 할 때 선형다중회귀모델을 계획행렬로 나타내면 위와 같고, 간단히 $Y = X \beta + \varepsilon$ 라 나타내자. $\beta$ 에 대해 최소제곱인 추정량 벡터 $\hat{\beta}$ 는 다음과 같다. $$ \hat{\beta} = \begin{bmatrix} \hat{\beta}_{0} \\ \hat{\beta}_{1} \\ \vdots \\ \hat{\beta}_{p} \end{bmatrix} = \left( X^{T} X \right)^{-1} X^{T} Y $$ 그뿐만 아니라, $\hat{\beta}$ 는 $\beta$ 의 최선불편추정량이어서 최선선형불편추정량best Linear Unbiased Estimator, BLUE이라 부르기도 한다.
유도 2 3
우리의 목표는 $$ \left\| \varepsilon \right\|_{2}^{2} = \sum_{k=0}^{n} \varepsilon_{k} = \begin{bmatrix} \varepsilon_{0} & \varepsilon_{1} & \cdots & \varepsilon_{n} \end{bmatrix} \begin{bmatrix} \varepsilon_{0} \\ \varepsilon_{1} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} = \varepsilon^{T} \varepsilon $$ 을 최소화하는 것이다. $\varepsilon = Y - X \beta$ 이므로 $\varepsilon^{T} \varepsilon = \left( Y - X \beta \right)^{T} \left( Y - X \beta \right)$ 을 최소화하는 $\beta$ 를 찾으면 된다. 양변을 $\beta$ 로 미분한 $$ \begin{align*} {{ d } \over { d \beta }} \varepsilon^{T} \varepsilon =& - 2 X^{T} \left( Y - X \beta \right) \\ = & - 2 X^{T} \left( Y - X \beta \right) \\ = & - 2 X^{T} Y + 2 X^{T} X \beta \end{align*} $$ 가 $0$ 이 되게끔 하는 $\hat{\beta}$ 는 다음의 꼴이 된다. $$ \hat{\beta} = \argmin_{\beta} \varepsilon^{T} \varepsilon = \left( X^{T} X \right)^{-1} X^{T} Y $$ 한편 $\hat{\beta}$ 는 $\beta$ 에 대한 불편추정량임을 쉽게 보일 수 있고, 최소제곱법을 통해 유도되었으므로 이보다 분산이 작은 $\beta$ 의 불편추정량은 존재하지 않아 최선불편추정량이다.
■
만약 유도과정에서 $\beta$ 로 미분하는 부분이 별로 마음에 들지 않는다면 행렬대수로 접근하는 대안도 있다. 행렬대수에서의 최소제곱법에서 $$ X^{\ast} Y = X^{\ast} X \hat{\beta} $$ 를 만족하는 $\hat{\beta}$ 이 최소제곱해가 된다는 점에서, $X \in \mathbb{R}^{n \times p}$ 이므로 $X^{\ast} = X^{T}$ 이고 결론적으로 $\hat{\beta} = \left( X^{T} X \right)^{-1} X^{T} Y$ 을 얻는다.
같이보기
Hadi. (2006). Regression Analysis by Example(4th Edition): p53. ↩︎
Hadi. (2006). Regression Analysis by Example(4th Edition): p82~84. ↩︎
https://www.stat.purdue.edu/~boli/stat512/lectures/topic3.pdf ↩︎