適合値、予測値、残差、誤差
定義 1
回帰分析で得られた回帰式を$Y \gets X_{1} + X_{2} + \cdots + X_{n}$とし、$y = \beta_{0} + \beta_{1} x_{1} + \beta_{2} x_{2} + \cdots + \beta_{n} x_{n}$で示そう。n番目のデータを$(y_{i} , x_{i1} , x_{i2} , \cdots , x_{in})$と表す。
- 平均mean: $$ \displaystyle \overline{y} := {{1} \over {n}} \sum_{i=1}^{n} y_{i} $$
- 適合値fitted value: n番目のデータ $y_{i}$ に対して $$ \hat{y}_{i} := \beta_{0} + \beta_{1} x_{i1} + \beta_{2} x_{i2} + \cdots + \beta_{n} x_{in} $$
- 予測値predicted value: 新しいデータ $y_{0}$ に対して $$ \hat{y}_{0} := \beta_{0} + \beta_{1} x_{01} + \beta_{2} x_{02} + \cdots + \beta_{n} x_{0n} $$
- 適合による偏差deviation due to Fit: $$ \hat{y}_{i} - \overline{y} $$
- 残差residual: $$ y_{i} - \hat{y}_{i} $$
- TSS(総平方和)またはSST(全体の平方和): $$ \text{TSS} =\text{SST} := \sum_{i=1}^{n} ( y_{i} - \overline{y} )^2 $$
- ESS(説明される平方和)またはSSR(回帰による平方和): $$ \text{ESS} = \text{SSR} := \sum_{i=1}^{n} ( \hat{y}_{i} - \overline{y} )^2 $$
- RSS(残差平方和)またはSSE(平方誤差和): $$ \text{RSS} = \text{SSE} := \sum_{i=1}^{n} ( y_{i} - \hat{y}_{i} )^2 $$
- R二乗r-squaredまたは説明率: $$ R^2 := {{ \text{ SSR } } \over { \text{ SST} }} $$
説明
- 適合値と予測値は数学的には全く同じだが、回帰式に代入するデータが実データかどうかの違いがある。ここで$\hat{y_{i}}$を求めるということは、与えられた情報を反映した値を計算することを意味する。この場合、5番の残差は、我々がどうしようもない―当然存在するべき、自然にあるべきエラーだ。回帰分析は、それらの平方和を最小化して回帰線を求め、その後残差を見て回帰分析の仮定が満たされているかを確認することをモデル診断と呼ぶ。
- 「説明される平方和ESS」は、「説明できない平方和RSS」と対照的な表現に過ぎない。困ったことに、EとRはそれぞれExplainedとRegression, ErrorとResidualで、似ているように書かれている。 $$ \text{TSS} = \text{SST} \\ \text{ESS} = \text{SSR} \\ \text{RSS} = \text{SSE} $$ 先に付くか後に付くかによって$E$と$R$が変わるような暗記はお勧めしない。ただ自分にとって快適な記号を一つ選んで、数式で覚えておき、知っていることと反対に書かれていたら、略語も反対にされ得るという事実だけを覚えておけば十分だ。
- R二乗は説明率とも呼ばれ、分析がデータをどれ程よく説明しているかを示す尺度になる。一方で、$\text{SST} = \text{SSR} + \text{SSE}$は容易に示され、これによると、$\text{ESS}$が高まるにつれて、$\text{RSS}$は小さくなり、$0 \le R^{2} \le 1$が真となる。それでは直感的に見た場合、 $$ R^2 = {{ \text{ SSR } } \over { \text{ SST} }} = {{ \text{ ESS } } \over { \text{ TSS } }} = {{\text{설명할 수 있는 에러}} \over {\text{전체 에러}}} $$ となるので、分析でのデータの説明比率として理解することができる。
Hadi. (2006). 回帰分析の例(第4版): p40~42. ↩︎