logo

단순회귀분석 📂통계적분석

단순회귀분석

개요

회귀분석이란 변수 사이의 관계를 알아내는 방법으로써, 특히 선형 관계를 밝히는 데 유용하다. 단순회귀분석simple Linear regression은 그 중에서도 가장 쉬운 것으로, 종속변수(반응변수) 하나와 독립변수(설명변수) 하나에 대한 회귀분석을 말한다.

모델 1

99757D375B4B0F0A14.png

독립변수 xix_{i} 와 종속변수 yiy_{i} 가 선형 관계를 가진다는 말은 어떤 a,ba,b 에 대해 yi=axi+by_{i} = ax_{i} + b 로 나타낼 수 있다는 것이다. 물론 실제 데이터에 대해서는 오차가 있을수밖에 없으므로, 정확하게는 오차항을 포함해 yi=axi+b+εiy_{i} = ax_{i} + b + \varepsilon_{i} 이 된다. 이제 표현을 회귀분석에 자주 쓰는 모양으로 고쳐보면 yi=β0+β1xi+εi y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i} 계획행렬로 나타내면 [y1y2yn]=[1x11x21xn][β0β1]+[ε1ε2εn] \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{1} \\ 1 & x_{2} \\ \vdots & \vdots \\ 1 & x_{n} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} 이고, 정리하면 Y=Xβ+εY = X \beta + \varepsilon 을 얻는다.

최적화

이는 최소제곱법을 통해 ε2=YXβ2\| \varepsilon \|_{2} = \| Y - X \beta \|_{2} 가 최소가 되도록 하는 β=[β0β1]\beta = \begin{bmatrix} \beta_{0} \\ \beta_{1} \end{bmatrix} 을 찾는 문제로 귀결된다. β\beta 는 직선의 절편과 기울기를 나타내므로, β\beta 를 찾는 것은 데이터를 선형 관계로 설명해줄 직선 중 가장 오차가 작은 것을 찾는 것이다. 물론 우리는 두 변수가 정확히 어떤 관계를 갖고 있는지는 알 수 없으므로 우리는 회귀계수추정치 β0^\hat{ \beta_{0}}β1^\hat{ \beta_{1} } 을 찾아야한다. 쉽게 말해 데이터랑 제일 비슷하게 생긴 직선을 그으면 된다.

20190905\_104344.png 보통 이런 문제는 수치선형대수의 툴을 사용해서 푸는 게 일반적이지만, 단순회귀분석은 간단한 미적분학으로도 풀 수 있다. 행렬을 다시 헤쳐서 나타내보면 ε2=i=1n(yiβ0β1xi)2 \begin{align} \varepsilon^2 = \sum_{i=1}^{n} ( y_{i} - \beta_{0} - \beta_{1} x_{i} )^2 \end{align} 를 가장 작게 만드는 β0=β0^\beta_{0} = \hat{ \beta_{0} }β1=β1^\beta_{1} = \hat {\beta_{1}} 을 찾는 것이다.식 (1)(1) 에서 β0\beta_{0} 에 대해 편미분을 취해보면 ε2β0=2i=1n(yiβ0β1xi) {{ \partial \varepsilon^2 } \over { \partial \beta_{0}}} = -2 \sum_{i=1}^{n} (y_{i} - \beta_{0} - \beta_{1} x_{i} ) ε2\varepsilon^2 이 가장 작아지려면 nβ0=i=1nyiβ1i=1nxi n \beta_{0} = \sum_{i=1}^{n} y_{i} - \beta_{1} \sum_{i=1}^{n} x_{i} 따라서 ε2\varepsilon^2β0=yβ1x\beta_{0} = \overline{y} - \beta_{1} \overline{x} 일 때 가장 작아진다.식 (1)(1) 에서 β1\beta_{1} 에 대해 편미분을 취해보면 ε2β1=2i=1nxi(yiβ0β1xi) {{ \partial \varepsilon^2 } \over { \partial \beta_{1}}} = -2 \sum_{i=1}^{n} x_{i} (y_{i} - \beta_{0} - \beta_{1} x_{i} ) ε2\varepsilon^2 이 가장 작아지려면 β0=yβ1x\beta_{0} = \overline{y} - \beta_{1} \overline{x} 이므로 i=1nxi(yiy+β1xβ1xi)=0 \sum_{i=1}^{n} x_{i} (y_{i} - \overline{y} + \beta_{1} \overline{x} - \beta_{1} x_{i} ) = 0 다시 말해, β1i=1n(xi2xxi)=i=1nxiyii=1nxiy \beta_{1} \sum_{i=1}^{n} ( x_{i}^2 - \overline{x} x_{i} ) = \sum_{i=1}^{n} x_{i} y_{i} - \sum_{i=1}^{n} x_{i} \overline{y} 이다. 정리하면 β1=i=1nxiyii=1nxiyi=1n(xi2xxi)=i=1n(xix)(yiy)i=1n(xi2x2)=Cov(X,Y)Var(X)=Cor(X,Y)sysx \begin{align*} \beta_{1} =& {{\sum_{i=1}^{n} x_{i} y_{i} - \sum_{i=1}^{n} x_{i} \overline{y} } \over {\sum_{i=1}^{n} ( x_{i}^2 - \overline{x} x_{i} ) }} \\ =& {{ \sum_{i=1}^n ( x_{i} - \overline{x} ) ( y_{i} - \overline{y} ) } \over { \sum_{i=1}^{n} (x_{i}^2 - \overline{x}^2 )}} \\ =& {{ \operatorname{Cov} (X,Y) } \over { \operatorname{Var} ( X ) }} \\ =& \text{Cor} (X,Y) {{s_{y}} \over {s_{x}}} \end{align*} 실제 계산을 한다면 β1^\hat{\beta_{1}} 보다는 β0^\hat{\beta_{0}} 을 먼저 구해야 할 것이다.

같이보기


  1. Hadi. (2006). Regression Analysis by Example(4th Edition): p24. ↩︎