回帰係数の定義と推定量の公式導出
定義 1
$$
Y = \beta_{0} + \beta_{1} X_{1} + \cdots + \beta_{p} X_{p} + \varepsilon
$$
多重回帰分析で与えられた $p$ 個の独立変数 $X_{1} , \cdots , X_{p}$ に対して、上記のような線形モデルlinear modelを立てるとき、$\beta_{0} , \beta_{1} , \cdots , \beta_{p}$ を 回帰係数regression Coefficientとする。$Y$ は従属変数、$\varepsilon$ はランダムに分布されたエラーを意味する。
公式
$$
\begin{bmatrix}
y_{1}
\\ y_{2}
\\ \vdots
\\ y_{n}
\end{bmatrix} = \begin{bmatrix}
1 & x_{11} & \cdots & x_{p1}
\\ 1 & x_{12} & \cdots & x_{p2}
\\ \vdots & \vdots & \ddots & \vdots
\\ 1 & x_{1n} & \cdots & x_{pn}
\end{bmatrix} \begin{bmatrix}
\beta_{0}
\\ \beta_{1}
\\ \vdots
\\ \beta_{p}
\end{bmatrix} + \begin{bmatrix}
\varepsilon_{1}
\\ \varepsilon_{2}
\\ \vdots
\\ \varepsilon_{n}
\end{bmatrix}
$$
$n$ 個のデータが与えられていて $p < n$ とすると、線形多重回帰モデルを計画行列で表すと上記のようになり、簡単に$Y = X \beta + \varepsilon$ と表す。$\beta$ に対して最小二乗の推定量ベクトル $\hat{\beta}$ は次のようになる。
$$
\hat{\beta} = \begin{bmatrix}
\hat{\beta}_{0}
\\ \hat{\beta}_{1}
\\ \vdots
\\ \hat{\beta}_{p}
\end{bmatrix} = \left( X^{T} X \right)^{-1} X^{T} Y
$$
それだけでなく、$\hat{\beta}$ は $\beta$ の最良不偏推定量であるため、最良線形不偏推定量Best Linear Unbiased Estimator, BLUEとも呼ばれる。
導出 2 3
我々の目標は
$$
\left\| \varepsilon \right\|_{2}^{2} = \sum_{k=0}^{n} \varepsilon_{k} = \begin{bmatrix}
\varepsilon_{0} & \varepsilon_{1} & \cdots & \varepsilon_{n}
\end{bmatrix} \begin{bmatrix}
\varepsilon_{0}
\\ \varepsilon_{1}
\\ \vdots
\\ \varepsilon_{n}
\end{bmatrix} = \varepsilon^{T} \varepsilon
$$
を最小化することだ。$\varepsilon = Y - X \beta$ なので $\varepsilon^{T} \varepsilon = \left( Y - X \beta \right)^{T} \left( Y - X \beta \right)$ を最小化する $\beta$ を探せば良い。
残差平方和の勾配:
$$ f \left( \mathbf{s} \right) := \left( \mathbf{y} - X \mathbf{s} \right)^{T} R \left( \mathbf{y} - X \mathbf{s} \right) $$
としよう。$R$ が単位行列なら次を得る。
$$ {{ \partial f \left( \mathbf{s} \right) } \over { \partial \mathbf{s} }} = - 2 X^{T} \left( \mathbf{y} - X \mathbf{s} \right) $$
両辺を $\beta$ で偏微分した
$$
\begin{align*}
{{ \partial } \over { \partial \beta }} \varepsilon^{T} \varepsilon =& - 2 X^{T} \left( Y - X \beta \right)
\\ = & - 2 X^{T} \left( Y - X \beta \right)
\\ = & - 2 X^{T} Y + 2 X^{T} X \beta
\end{align*}
$$
が零ベクトル $\mathbf{0}$ になるような $\hat{\beta}$ は次の形をとる。
$$
\hat{\beta} = \argmin_{\beta} \varepsilon^{T} \varepsilon = \left( X^{T} X \right)^{-1} X^{T} Y
$$
一方で $\hat{\beta}$ は $\beta$ に対する不偏推定量であることを簡単に示すことができ、最小二乗法を通して導出されたため、これより分散が小さい $\beta$ の不偏推定量は存在せず、最良不偏推定量である。
■
もし導出過程で $\beta$ に微分する部分があまり気に入らないなら、行列代数でアプローチする代案もある。行列代数での最小二乗法で
$$
X^{\ast} Y = X^{\ast} X \hat{\beta}
$$
を満たす $\hat{\beta}$ が最小二乗解となる点で、$X \in \mathbb{R}^{n \times p}$ なので $X^{\ast} = X^{T}$ であり、結論的に $\hat{\beta} = \left( X^{T} X \right)^{-1} X^{T} Y$ を得る。
帰結
$\hat{\beta}$ が最良線形不偏推定量なら、$y_{k}$ の和と適合値 $\hat{y}_{k=1} = \hat{\beta}_{0} + \sum_{j=1}^{p} \hat{\beta}_{j} x_{j}$ の和は等しい:
$$
\sum_{k=1}^{n} y_{k} = \sum_{k=1}^{n} \hat{y}_{k}
$$
証明
本公式の証明で $\hat{\beta}$ が最良線形不偏推定量というのは、
$$
\begin{align*}
& \mathbf{0} = - 2 X^{T} Y + 2 X^{T} X \hat{\beta}
\\ \implies & \mathbf{0} = X^{T} \left( Y - X \hat{\beta} \right)
\\ \implies & \mathbf{0} = X^{T} \begin{bmatrix} y_{1} - \hat{y}_{1} \\ \vdots \\ y_{n} - \hat{y}_{n} \end{bmatrix}
\end{align*}
$$
が成立することを意味する。$X$ が計画行列であるため、$X^{T}$ の最初の行はすべての成分が $1$ である1行列であると考えられる。$X^{T}$ の最初の行と $Y - X \hat{\beta}$ の積を見れば次のようになる。
$$
\begin{align*}
& 0 = \begin{bmatrix} 1 & \cdots & 1 \end{bmatrix} \begin{bmatrix} y_{1} - \hat{y}_{1} \\ \vdots \\ y_{n} - \hat{y}_{n} \end{bmatrix}
\\ \implies & 0 = \left( y_{1} - \hat{y}_{1} \right) + \cdots + \left( y_{n} - \hat{y}_{n} \right)
\\ \implies & 0 = \sum_{k=1}^{n} y_{k} - \sum_{k=1}^{n} \hat{y}_{k}
\end{align*}
$$
結果的に、次を得る。
$$
\sum_{k=1}^{n} y_{k} = \sum_{k=1}^{n} \hat{y}_{k}
$$
■
参照
Hadi. (2006). Regression Analysis by Example(4th Edition): p53. ↩︎
Hadi. (2006). Regression Analysis by Example(4th Edition): p82~84. ↩︎
https://www.stat.purdue.edu/~boli/stat512/lectures/topic3.pdf ↩︎