logo

回帰係数のF検定 📂統計的検定

回帰係数のF検定

仮説検定

線形多重回帰モデルモデル診断で、残差線形性等分散性独立性正規性を満たすとする。 $n$ 個の観測値と $p$ 個の独立変数を対象とした多重回帰分析における仮説検定は次の通りです。

  • $H_{0}$: $\beta_{1} = \beta_{2} = \cdots = \beta_{p} = 0$ つまり、すべての独立変数が従属変数と相関関係を持たない。
  • $H_{1}$: $\beta_{1} , \beta_{2} , \cdots , \beta_{p}$ のうち少なくとも1つは $ 0$ ではない。つまり、少なくとも1つの独立変数が意味のある相関関係を持つ。

導出

SST, SSR, SSE: 6. 総平方和(Total Sum of Squares)またはSST(Sum of Squares Total): $$ \text{TSS} =\text{SST} := \sum_{i=1}^{n} ( y_{i} - \overline{y} )^2 $$ 7. 回帰平方和(Explained Sum of Squares)またはSSR(Sum of Squares due to Regression): $$ \text{ESS} = \text{SSR} := \sum_{i=1}^{n} ( \hat{y}_{i} - \overline{y} )^2 $$ 8. 残差平方和(Residual Sum of Squares)またはSSE(Sum of squared Error): $$ \text{RSS} = \text{SSE} := \sum_{i=1}^{n} ( y_{i} - \hat{y}_{i} )^2 $$

SSTは平均1つを用いるため、自由度が$(n-1)$であり、SSEは$p$個の独立変数に基づいて計算されるため、定数項を含む$(p+1)$個の回帰係数を使用し、自由度が$\left( n-(p-1) \right)$である。これらは残差の等分散性と独立性、正規性に従って$\sigma^{2}$で分けたとき、それぞれの自由度を持つカイ二乗分布に従う。一方 $$ SST = SSR + SSE \iff SSR = SST - SSE $$ であるため、$SSR$の自由度を持ち、カイ二乗分布$\chi^{2} (p)$に従う。

F分布の導出: 2つの確率変数 $U,V$が独立であり、$U \sim \chi^{2} ( r_{1})$、$V \sim \chi^{2} ( r_{2})$であるとすると $$ {{ U / r_{1} } \over { V / r_{2} }} \sim F \left( r_{1} , r_{2} \right) $$

検定統計量 $F$を $$ F := {{ \text{SSR} / p } \over { \text{SSE} / (n-p-1 ) }} $$ として定義すると自由度が$(p , n-p-1)$のF分布に従う。

方程式で再度表すと$\displaystyle F = {{ \text{SSR} / p } \over { \text{SSE} / (n-p-1 ) }} \sim F(p, n-p-1)$であり、これを利用して仮説検定を行う。

このF検定は回帰係数のt検定が見られるのであれば無意味であり、真の本質はモデルの比較にある。統計学に避けられない「主観性」や「あいまいさ」を払拭して、統計的に意味のある結果を出せるようになることにある。(もちろん、実際の分析ではもっと便利で簡単な統計量を使ってモデルを比較する。)

縮小モデルに対する仮説検定

$n$ 個の観測値と $p$ 個の独立変数を対象とした多重回帰分析について、$i=0,1,\cdots,p$とする。この回帰モデルを全体モデルfMと呼び、FMから$k$個の独立変数を除去したモデルを縮小モデルrMと呼ぶ。

  • $H_{0}$: RMで十分である。つまり、多くの変数を使ってFMを使用する必要はない。
  • $H_{1}$: RMは不十分である。つまり、変数を増やしてでもFMを使用する方が良い。

$$ F = {{ [ \text{SSR} (RM) - \text{SSR} (FM) ] / (p +1 - k) } \over { \text{SSE} ( FM ) / (n-p-1 ) }} $$ は、自由度が$(p + 1 - k , n-p-1)$のF分布に従う。有意水準 $\alpha$で$F \le F_{ ( p+1-k , n-p-1 ; \alpha ) }$であれば、$H_{0}$が採用され、縮小RMが使用できるようになる。

関連項目