다중회귀분석
개요
회귀분석이란 변수 사이의 관계를 알아내는 방법으로써, 특히 선형 관계를 밝히는 데 유용하다. 다중회귀분석multiple Linear regression은 하나의 종속변수(반응변수) 에 복수의 독립변수(설명변수) 가 미치는 영향을 파악하는 회귀분석을 말한다.
모델 1
$$Y = \beta_{0} + \beta_{1} X_{1} + \cdots + \beta_{p} X_{p} + \varepsilon $$
우리는 변수들이 위와 같은 선형관계를 가지는지에 관심이 있다. 각 변수들은 서로 독립임을 가정하며, 마찬가지로 회귀계수는 다른 변수가 고정되었을때 해당 변수의 단위변화율을 의미한다. 계획행렬로 나타내면 $$ \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} $$ 이고, 정리하면 $Y = X \beta + \varepsilon$ 이다.
계산 자체는 단순회귀분석과 마찬가지로 최소제곱법을 사용하는데, 다행스럽게도 최소제곱법은 차원 $p$ 에 별로 연연하지 않는다. 그러나 단순회귀분석과 달리 $p$ 차원에 대해 일반화되기 때문에 $p \ge 3$ 에선 그래프로 확인하기도 어렵다.
보는 것만으론 분석이 제대로 되었나 알 수 없기 때문에, 분석자는 여러가지 진단을 통해 결과를 정당화해야한다. 설령 그런 진단을 통과하더라도 교호작용과 다중공선성 등의 문제가 남아있고 어떤 변수를 선택할것인가도 중요한 문제다.
같이보기
Hadi. (2006). Regression Analysis by Example(4th Edition): p53. ↩︎