線形回帰分析におけるSST = SSR + SSEの証明
定理
$$ \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} $$ $n$ 個のデータが与えられており $p < n$ とすると、線形重回帰モデルを計画行列で表すと上記のようになり、簡単に $Y = X \beta + \varepsilon$ と表そう。 $\beta$ に対する最小二乗の推定量ベクトル $$ \beta = \left( \beta_{0} , \beta_{1} , \cdots , \beta_{p} \right) = \left( X^{T} X \right)^{-1} X^{T} Y $$ は最良線形不偏推定量としよう。次に、平均 $\overline{y}$, 適合値 $\hat{y}_{k}$, $\text{SST}$, $\text{SSR}$, $\text{SSE}$ を次のように定義する。 $$ \begin{align*} \overline{y} =& {{1} \over {n}} \sum_{k=1}^{n} y_{k} \\ \hat{y}_{k} =& \beta_{0} + \beta_{1} x_{k1} + \cdots + \beta_{p} x_{kp} \\ \text{SST} =& \sum_{k=1}^{n} \left( y_{k} - \overline{y} \right)^{2} \\ \text{SSR} =& \sum_{k=1}^{n} \left( \hat{y}_{k} - \overline{y} \right)^{2} \\ \text{SSE} =& \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right)^{2} \end{align*} $$ $\text{SST}$, $\text{SSR}$, $\text{SSE}$ は次のような関係を持つ。 $$ \text{SST} = \text{SSR} + \text{SSE} $$
証明
単純回帰分析ならともかく、重回帰分析では補助定理の証明のために行列関数の偏微分といったものが登場するため、思ったより難しい。実際、インターネットで証明を探してみても $\sum_{k=1}^{n} y_{k} = \sum_{k=1}^{n} \hat{y}_{k}$ という部分が数式的にどういう感じなのかを示すだけで回避する場合がほとんどだ1。回帰分析を学び始めた段階なら、このようなものがあるのかと一旦見過ごし、後で再度確認することをお勧めする。
Part 1. $\text{SST} = \text{SSR} + \text{SSE} + \cdots$
$$ \begin{align*} & \text{SST} \\ =& \sum_{k=1}^{n} \left( y_{k} - \overline{y} \right)^2 \\ =& \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} + \hat{y}_{k} - \overline{y} \right)^2 \\ =& \sum_{k=1}^{n} \left( \hat{y}_{k} - \overline{y} \right)^{2} + \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right)^{2} + 2 \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) \left( \hat{y}_{k} - \overline{y} \right) \\ =& \text{SSR} + \text{SSE} + 2 \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) \left( \hat{y}_{k} - \overline{y} \right) \end{align*} $$ なので、最後の項 $$ \begin{align*} & \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) \left( \hat{y}_{k} - \overline{y} \right) \\ =& \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) \hat{y}_{k} - \overline{y} \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) \end{align*} $$ が $0$ であることを示せば証明は終わりだ。
Part 2. $\overline{y} \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) = 0$
重回帰分析における適合値の和: $\hat{\beta}$ が最良線形不偏推定量であれば、 $y_{k}$ の和と適合値 $\hat{y}_{k=1} = \hat{\beta}_{0} + \sum_{j=1}^{p} \hat{\beta}_{j} x_{j}$ の和は等しい: $$ \sum_{k=1}^{n} y_{k} = \sum_{k=1}^{n} \hat{y}_{k} $$
補助定理によれば $\sum_{k=1}^{n} y_{k} = \sum_{k=1}^{n} \hat{y}_{k}$ なので $\sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) = 0$ でなければならない。この投稿では単に補助定理を使って流しているように見えるが、思ったよりも重要な部分だ。補助定理の証明は必ず理解するようにしよう。
Part 3. $\sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) \hat{y}_{k} = 0$
$$ \begin{bmatrix} \hat{y}_{1} \\ \vdots \\ \hat{y}_{n} \end{bmatrix} = X \beta $$ 適合値 $\hat{y}_{1} , \cdots , \hat{y}_{n}$ のベクトルは上記のように $X$ と $\beta$ の積で表すことができる。単位行列 $E$ と零行列 $O$ に対し、次のように数式を展開しよう。 $$ \begin{align*} & \sum_{k=1}^{n} \left( y_{k} - \hat{y}_{k} \right) \hat{y}_{k} \\ =& \begin{bmatrix} y_{1} - \hat{y}_{1} & \cdots & y_{n} - \hat{y}_{n} \end{bmatrix} \begin{bmatrix} \hat{y}_{1} \\ \vdots \\ \hat{y}_{n} \end{bmatrix} \\ =& \left( Y^{T} - \left( X \beta \right)^{T} \right) \begin{bmatrix} \hat{y}_{1} \\ \vdots \\ \hat{y}_{n} \end{bmatrix} \\ =& \left( Y - X \beta \right)^{T} X \beta \\ =& \left( Y - X \left( X^{T} X \right)^{-1} X^{T} Y \right)^{T} X \beta \\ =& \left( \left[ E - X \left( X^{T} X \right)^{-1} X^{T} \right] Y \right)^{T} X \beta \\ =& Y^{T} \left( E - X \left( X^{T} X \right)^{-1} X^{T} \right)^{T} X \beta \\ =& Y^{T} \left( X^{T} \left[ E - X \left( X^{T} X \right)^{-1} X^{T} \right] \right)^{T} \beta \\ =& Y^{T} \left( X^{T} - X^{T} X \left( X^{T} X \right)^{-1} X^{T} \right)^{T} \beta \\ =& Y^{T} \left( X^{T} - X^{T} \right)^{T} \beta \\ =& Y^{T} O^{T} \beta \\ =& 0 \end{align*} $$ 結果的に、次の等式が得られる。 $$ \text{SST} = \text{SSR} + \text{SSE} $$
■