単純回帰分析
概要
回帰分析は、変数間の関係を見つける方法であって、特に線形関係を明らかにするのに便利だ。単純回帰分析simple Linear regressionは、その中でも一番簡単で、従属変数(反応変数)一つと独立変数(説明変数)一つに関する回帰分析を指す。
モデル 1
独立変数 $x_{i}$ と従属変数 $y_{i}$ が線形関係にあるというのは、ある $a,b$ に対して $y_{i} = ax_{i} + b$ で表せるということだ。もちろん、実際のデータに関しては、誤差が生じるので、正確には誤差項を含めて $y_{i} = ax_{i} + b + \varepsilon_{i}$ になる。これを回帰分析でよく使う形に変えてみると $$ y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i} $$ 設計行列で表すと $$ \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{1} \\ 1 & x_{2} \\ \vdots & \vdots \\ 1 & x_{n} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} $$ 整理すると $Y = X \beta + \varepsilon$ を得る。
最適化
これは 最小二乗法を通して $\| \varepsilon \|_{2} = \| Y - X \beta \|_{2}$ が最小になる $\beta = \begin{bmatrix} \beta_{0} \\ \beta_{1} \end{bmatrix}$ を見つける問題になる。$\beta$ は直線の切片と傾きを表しているので、$\beta$ を見つけるのは、データを線形的に説明してくれる最も誤差が少ない直線を見つけることだ。もちろん、二変数が厳密にどのような関係を持っているかはわからないので、回帰係数の推定値 $\hat{ \beta_{0}}$ と$\hat{ \beta_{1} }$ を見つけなければならない。簡単に言えば、データに最も似た直線を引けばいい。
このような問題は普通、数理線形代数のツールを使って解くが、単純回帰分析は単純な微分積分学でも解くことができる。行列を再び分解して表すと $$ \begin{align} \varepsilon^2 = \sum_{i=1}^{n} ( y_{i} - \beta_{0} - \beta_{1} x_{i} )^2 \end{align} $$ 最小にする $\beta_{0} = \hat{ \beta_{0} }$ と$\beta_{1} = \hat {\beta_{1}}$ を見つけることだ。式 $(1)$ から $\beta_{0}$ に関して偏微分を取ると $$ {{ \partial \varepsilon^2 } \over { \partial \beta_{0}}} = -2 \sum_{i=1}^{n} (y_{i} - \beta_{0} - \beta_{1} x_{i} ) $$ $\varepsilon^2$ が最小になるためには $$ n \beta_{0} = \sum_{i=1}^{n} y_{i} - \beta_{1} \sum_{i=1}^{n} x_{i} $$ 従って$\varepsilon^2$ は $\beta_{0} = \overline{y} - \beta_{1} \overline{x}$ の時、最小になる。式 $(1)$ から $\beta_{1}$ に関して偏微分を取ると $$ {{ \partial \varepsilon^2 } \over { \partial \beta_{1}}} = -2 \sum_{i=1}^{n} x_{i} (y_{i} - \beta_{0} - \beta_{1} x_{i} ) $$ $\varepsilon^2$ が $\beta_{0} = \overline{y} - \beta_{1} \overline{x}$ のため最小になるので $$ \sum_{i=1}^{n} x_{i} (y_{i} - \overline{y} + \beta_{1} \overline{x} - \beta_{1} x_{i} ) = 0 $$ つまり、 $$ \beta_{1} \sum_{i=1}^{n} ( x_{i}^2 - \overline{x} x_{i} ) = \sum_{i=1}^{n} x_{i} y_{i} - \sum_{i=1}^{n} x_{i} \overline{y} $$ 整理すると $$ \begin{align*} \beta_{1} =& {{\sum_{i=1}^{n} x_{i} y_{i} - \sum_{i=1}^{n} x_{i} \overline{y} } \over {\sum_{i=1}^{n} ( x_{i}^2 - \overline{x} x_{i} ) }} \\ =& {{ \sum_{i=1}^n ( x_{i} - \overline{x} ) ( y_{i} - \overline{y} ) } \over { \sum_{i=1}^{n} (x_{i}^2 - \overline{x}^2 )}} \\ =& {{ \operatorname{Cov} (X,Y) } \over { \operatorname{Var} ( X ) }} \\ =& \text{Cor} (X,Y) {{s_{y}} \over {s_{x}}} \end{align*} $$ 実際の計算では、$\hat{\beta_{1}}$ よりも先に $\hat{\beta_{0}}$ を求めるべきだろう。
参照
- Rでの単純回帰分析の結果
- 回帰係数のt検定
- 多重回帰分析:単純回帰分析と違って、複数の独立変数でモデルを拡張する。
- 多重回帰係数ベクトルの推定量の導出
Hadi. (2006). Regression Analysis by Example(4th Edition): p24. ↩︎