適合値、予測値、残差、誤差
定義 1
回帰分析 $Y \gets X_{1} + X_{2} + \cdots + X_{n}$ で得た回帰式を $y = \beta_{0} + \beta_{1} x_{1} + \beta_{2} x_{2} + \cdots + \beta_{n} x_{n}$ とし、$i$番目のデータを $(y_{i} , x_{i1} , x_{i2} , \cdots , x_{in})$ と表すことにしよう。
- 平均mean: $$ \displaystyle \overline{y} := {{1} \over {n}} \sum_{i=1}^{n} y_{i} $$
- 適合値fitted value: $i$番目のデータ $y_{i}$に対して $$ \hat{y}_{i} := \beta_{0} + \beta_{1} x_{i1} + \beta_{2} x_{i2} + \cdots + \beta_{n} x_{in} $$
- 予測値predicted value: 新しいデータ $y_{0}$に対して $$ \hat{y}_{0} := \beta_{0} + \beta_{1} x_{01} + \beta_{2} x_{02} + \cdots + \beta_{n} x_{0n} $$
- 適合値による偏差deviation due to Fit: $$ \hat{y}_{i} - \overline{y} $$
- 残差residual: $$ y_{i} - \hat{y}_{i} $$
- TSS(Total Sum of Squares) または SST(Sum of Squares Total): $$ \text{TSS} =\text{SST} := \sum_{i=1}^{n} ( y_{i} - \overline{y} )^2 $$
- ESS(Explained Sum of Squares) または SSR(Sum of Squares due to Regression): $$ \text{ESS} = \text{SSR} := \sum_{i=1}^{n} ( \hat{y}_{i} - \overline{y} )^2 $$
- RSS(Residual Sum of Squares) または SSE(Sum of squared Error): $$ \text{RSS} = \text{SSE} := \sum_{i=1}^{n} ( y_{i} - \hat{y}_{i} )^2 $$
- 中回帰係数r-squared または説明力: $$ R^2 := {{ \text{ SSR } } \over { \text{ SST} }} $$
説明
- 適合値と予測値は数学的に全く同じだが、回帰式に代入するデータが実際のデータかどうかの違いがある。ここで $\hat{y_{i}}$ を求めることは、与えられた情報を反映した値を計算することを意味する。したがって、適合値と真値 $y_{i}$ との差、つまり5番目の残差は、もはや何ともできない――自然に存在するしかない、当然あるべきエラーである。回帰分析はその二乗和を最小化し、回帰直線を求めた後、残差を見て回帰分析の仮定を満たしているのか確認することをモデル診断と言う。
- ‘説明された二乗和 ESS’は ‘説明できない二乗和 RSS’と対比される表現に過ぎない。やっかいなのはEとRがそれぞれExplainedとRegression、ErrorとResidualとまぎらわしく使われている点だ。 $$ \text{TSS} = \text{SST} \\ \text{ESS} = \text{SSR} \\ \text{RSS} = \text{SSE} $$ 前に付くか後に付くかで$E$ と $R$ が変わる式の暗記はお勧めしない。ただ自分にとって便利な表記を一つ決めて、その数式として覚え、自分の知っていることと正反対に書かれているなら、省略語も正反対に使用される可能性がある事実として覚えておけば十分である。
- 中回帰係数は説明力とも呼ばれ、分析がデータをどれだけよく説明しているかを示す尺度となる。一方で線形回帰では$\text{SST} = \text{SSR} + \text{SSE}$ であることを数式的に証明でき、このことから$\text{ESS}$ が高くなるほど$\text{RSS}$ は小さくなり、$0 \le R^{2} \le 1$である。これは直感的に見た場合 $$ R^2 = {{ \text{ SSR } } \over { \text{ SST} }} = {{ \text{ ESS } } \over { \text{ TSS } }} = {{\text{설명할 수 있는 에러}} \over {\text{전체 에러}}} $$ なので、分析でデータを説明する割合と理解できるようになる。
Hadi. (2006). Regression Analysis by Example(4th Edition): p40~42. ↩︎