logo

回帰係数の定義と推定量の公式導出 📂統計的分析

回帰係数の定義と推定量の公式導出

定義 1

Y=β0+β1X1++βpXp+ε Y = \beta_{0} + \beta_{1} X_{1} + \cdots + \beta_{p} X_{p} + \varepsilon
多重回帰分析で与えられた pp 個の独立変数 X1,,XpX_{1} , \cdots , X_{p} に対して、上記のような線形モデルlinear modelを立てるとき、β0,β1,,βp\beta_{0} , \beta_{1} , \cdots , \beta_{p}回帰係数regression Coefficientとする。YY は従属変数、ε\varepsilon はランダムに分布されたエラーを意味する。

公式

[y1y2yn]=[1x11xp11x12xp21x1nxpn][β0β1βp]+[ε1ε2εn] \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix}
nn 個のデータが与えられていて p<np < n とすると、線形多重回帰モデル計画行列で表すと上記のようになり、簡単にY=Xβ+εY = X \beta + \varepsilon と表す。β\beta に対して最小二乗推定量ベクトル β^\hat{\beta} は次のようになる。
β^=[β^0β^1β^p]=(XTX)1XTY \hat{\beta} = \begin{bmatrix} \hat{\beta}_{0} \\ \hat{\beta}_{1} \\ \vdots \\ \hat{\beta}_{p} \end{bmatrix} = \left( X^{T} X \right)^{-1} X^{T} Y
それだけでなく、β^\hat{\beta}β\beta最良不偏推定量であるため、最良線形不偏推定量Best Linear Unbiased Estimator, BLUEとも呼ばれる。

導出 2 3

我々の目標は
ε22=k=0nεk=[ε0ε1εn][ε0ε1εn]=εTε \left\| \varepsilon \right\|_{2}^{2} = \sum_{k=0}^{n} \varepsilon_{k} = \begin{bmatrix} \varepsilon_{0} & \varepsilon_{1} & \cdots & \varepsilon_{n} \end{bmatrix} \begin{bmatrix} \varepsilon_{0} \\ \varepsilon_{1} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} = \varepsilon^{T} \varepsilon
最小化することだ。ε=YXβ\varepsilon = Y - X \beta なので εTε=(YXβ)T(YXβ)\varepsilon^{T} \varepsilon = \left( Y - X \beta \right)^{T} \left( Y - X \beta \right) を最小化する β\beta を探せば良い。

残差平方和の勾配:
f(s):=(yXs)TR(yXs) f \left( \mathbf{s} \right) := \left( \mathbf{y} - X \mathbf{s} \right)^{T} R \left( \mathbf{y} - X \mathbf{s} \right)
としよう。RR単位行列なら次を得る。
f(s)s=2XT(yXs) {{ \partial f \left( \mathbf{s} \right) } \over { \partial \mathbf{s} }} = - 2 X^{T} \left( \mathbf{y} - X \mathbf{s} \right)

両辺を β\beta偏微分した
βεTε=2XT(YXβ)=2XT(YXβ)=2XTY+2XTXβ \begin{align*} {{ \partial } \over { \partial \beta }} \varepsilon^{T} \varepsilon =& - 2 X^{T} \left( Y - X \beta \right) \\ = & - 2 X^{T} \left( Y - X \beta \right) \\ = & - 2 X^{T} Y + 2 X^{T} X \beta \end{align*}
零ベクトル 0\mathbf{0} になるような β^\hat{\beta} は次の形をとる。
β^=arg minβεTε=(XTX)1XTY \hat{\beta} = \argmin_{\beta} \varepsilon^{T} \varepsilon = \left( X^{T} X \right)^{-1} X^{T} Y
一方で β^\hat{\beta}β\beta に対する不偏推定量であることを簡単に示すことができ、最小二乗法を通して導出されたため、これより分散が小さい β\beta の不偏推定量は存在せず、最良不偏推定量である。


もし導出過程で β\beta に微分する部分があまり気に入らないなら、行列代数でアプローチする代案もある。行列代数での最小二乗法
XY=XXβ^ X^{\ast} Y = X^{\ast} X \hat{\beta}
を満たす β^\hat{\beta} が最小二乗解となる点で、XRn×pX \in \mathbb{R}^{n \times p} なので X=XTX^{\ast} = X^{T} であり、結論的に β^=(XTX)1XTY\hat{\beta} = \left( X^{T} X \right)^{-1} X^{T} Y を得る。

帰結

β^\hat{\beta} が最良線形不偏推定量なら、yky_{k} の和と適合値 y^k=1=β^0+j=1pβ^jxj\hat{y}_{k=1} = \hat{\beta}_{0} + \sum_{j=1}^{p} \hat{\beta}_{j} x_{j} の和は等しい:
k=1nyk=k=1ny^k \sum_{k=1}^{n} y_{k} = \sum_{k=1}^{n} \hat{y}_{k}

証明

本公式の証明で β^\hat{\beta} が最良線形不偏推定量というのは、
0=2XTY+2XTXβ^    0=XT(YXβ^)    0=XT[y1y^1yny^n] \begin{align*} & \mathbf{0} = - 2 X^{T} Y + 2 X^{T} X \hat{\beta} \\ \implies & \mathbf{0} = X^{T} \left( Y - X \hat{\beta} \right) \\ \implies & \mathbf{0} = X^{T} \begin{bmatrix} y_{1} - \hat{y}_{1} \\ \vdots \\ y_{n} - \hat{y}_{n} \end{bmatrix} \end{align*}
が成立することを意味する。XX が計画行列であるため、XTX^{T} の最初の行はすべての成分が 11 である1行列であると考えられる。XTX^{T} の最初の行と YXβ^Y - X \hat{\beta} の積を見れば次のようになる。
0=[11][y1y^1yny^n]    0=(y1y^1)++(yny^n)    0=k=1nykk=1ny^k \begin{align*} & 0 = \begin{bmatrix} 1 & \cdots & 1 \end{bmatrix} \begin{bmatrix} y_{1} - \hat{y}_{1} \\ \vdots \\ y_{n} - \hat{y}_{n} \end{bmatrix} \\ \implies & 0 = \left( y_{1} - \hat{y}_{1} \right) + \cdots + \left( y_{n} - \hat{y}_{n} \right) \\ \implies & 0 = \sum_{k=1}^{n} y_{k} - \sum_{k=1}^{n} \hat{y}_{k} \end{align*}
結果的に、次を得る。
k=1nyk=k=1ny^k \sum_{k=1}^{n} y_{k} = \sum_{k=1}^{n} \hat{y}_{k}

参照


  1. Hadi. (2006). Regression Analysis by Example(4th Edition): p53. ↩︎

  2. Hadi. (2006). Regression Analysis by Example(4th Edition): p82~84. ↩︎

  3. https://www.stat.purdue.edu/~boli/stat512/lectures/topic3.pdf ↩︎