단순회귀분석
개요
회귀분석이란 변수 사이의 관계를 알아내는 방법으로써, 특히 선형 관계를 밝히는 데 유용하다. 단순회귀분석simple Linear regression은 그 중에서도 가장 쉬운 것으로, 종속변수(반응변수) 하나와 독립변수(설명변수) 하나에 대한 회귀분석을 말한다.
모델 1
독립변수 $x_{i}$ 와 종속변수 $y_{i}$ 가 선형 관계를 가진다는 말은 어떤 $a,b$ 에 대해 $y_{i} = ax_{i} + b$ 로 나타낼 수 있다는 것이다. 물론 실제 데이터에 대해서는 오차가 있을수밖에 없으므로, 정확하게는 오차항을 포함해 $y_{i} = ax_{i} + b + \varepsilon_{i}$ 이 된다. 이제 표현을 회귀분석에 자주 쓰는 모양으로 고쳐보면 $$ y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i} $$ 계획행렬로 나타내면 $$ \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{1} \\ 1 & x_{2} \\ \vdots & \vdots \\ 1 & x_{n} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} $$ 이고, 정리하면 $Y = X \beta + \varepsilon$ 을 얻는다.
최적화
이는 최소제곱법을 통해 $\| \varepsilon \|_{2} = \| Y - X \beta \|_{2}$ 가 최소가 되도록 하는 $\beta = \begin{bmatrix} \beta_{0} \\ \beta_{1} \end{bmatrix}$ 을 찾는 문제로 귀결된다. $\beta$ 는 직선의 절편과 기울기를 나타내므로, $\beta$ 를 찾는 것은 데이터를 선형 관계로 설명해줄 직선 중 가장 오차가 작은 것을 찾는 것이다. 물론 우리는 두 변수가 정확히 어떤 관계를 갖고 있는지는 알 수 없으므로 우리는 회귀계수의 추정치 $\hat{ \beta_{0}}$ 과 $\hat{ \beta_{1} }$ 을 찾아야한다. 쉽게 말해 데이터랑 제일 비슷하게 생긴 직선을 그으면 된다.
보통 이런 문제는 수치선형대수의 툴을 사용해서 푸는 게 일반적이지만, 단순회귀분석은 간단한 미적분학으로도 풀 수 있다. 행렬을 다시 헤쳐서 나타내보면 $$ \begin{align} \varepsilon^2 = \sum_{i=1}^{n} ( y_{i} - \beta_{0} - \beta_{1} x_{i} )^2 \end{align} $$ 를 가장 작게 만드는 $\beta_{0} = \hat{ \beta_{0} }$ 와 $\beta_{1} = \hat {\beta_{1}}$ 을 찾는 것이다.식 $(1)$ 에서 $\beta_{0}$ 에 대해 편미분을 취해보면 $$ {{ \partial \varepsilon^2 } \over { \partial \beta_{0}}} = -2 \sum_{i=1}^{n} (y_{i} - \beta_{0} - \beta_{1} x_{i} ) $$ $\varepsilon^2$ 이 가장 작아지려면 $$ n \beta_{0} = \sum_{i=1}^{n} y_{i} - \beta_{1} \sum_{i=1}^{n} x_{i} $$ 따라서 $\varepsilon^2$ 은 $\beta_{0} = \overline{y} - \beta_{1} \overline{x}$ 일 때 가장 작아진다.식 $(1)$ 에서 $\beta_{1}$ 에 대해 편미분을 취해보면 $$ {{ \partial \varepsilon^2 } \over { \partial \beta_{1}}} = -2 \sum_{i=1}^{n} x_{i} (y_{i} - \beta_{0} - \beta_{1} x_{i} ) $$ $\varepsilon^2$ 이 가장 작아지려면 $\beta_{0} = \overline{y} - \beta_{1} \overline{x}$ 이므로 $$ \sum_{i=1}^{n} x_{i} (y_{i} - \overline{y} + \beta_{1} \overline{x} - \beta_{1} x_{i} ) = 0 $$ 다시 말해, $$ \beta_{1} \sum_{i=1}^{n} ( x_{i}^2 - \overline{x} x_{i} ) = \sum_{i=1}^{n} x_{i} y_{i} - \sum_{i=1}^{n} x_{i} \overline{y} $$ 이다. 정리하면 $$ \begin{align*} \beta_{1} =& {{\sum_{i=1}^{n} x_{i} y_{i} - \sum_{i=1}^{n} x_{i} \overline{y} } \over {\sum_{i=1}^{n} ( x_{i}^2 - \overline{x} x_{i} ) }} \\ =& {{ \sum_{i=1}^n ( x_{i} - \overline{x} ) ( y_{i} - \overline{y} ) } \over { \sum_{i=1}^{n} (x_{i}^2 - \overline{x}^2 )}} \\ =& {{ \operatorname{Cov} (X,Y) } \over { \operatorname{Var} ( X ) }} \\ =& \text{Cor} (X,Y) {{s_{y}} \over {s_{x}}} \end{align*} $$ 실제 계산을 한다면 $\hat{\beta_{1}}$ 보다는 $\hat{\beta_{0}}$ 을 먼저 구해야 할 것이다.
같이보기
- R 에서 단순회귀분석 결과
- 회귀계수의 t검정
- 다중회귀분석: 단순회귀분석과 달리 여러 독립변수으로 모델을 확장한다.
- 다중회귀계수벡터의 추정량 유도
Hadi. (2006). Regression Analysis by Example(4th Edition): p24. ↩︎