logo

回帰係数のt検定 📂統計的検定

回帰係数のt検定

仮説検定

[y1y2yn]=[1x11xp11x12xp21x1nxpn][β0β1βp]+[ε1ε2εn] \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} 独立変数がpp個、nn個のデータが与えられた時、線形多重回帰モデル設計行列で表すと上のようになり、簡単にY=Xβ+εY = X \beta + \varepsilonとしよう。モデル診断残差線形性等分散性独立性正規性を満たすとする。多重回帰分析で各回帰係数に対する仮説検定は次の通り。

  • H0H_{0}βj=0\beta_{j} = 0つまり、jj番目の独立変数は従属変数との相関関係がない。
  • H1H_{1}βj0\beta_{j} \ne 0つまり、jj番目の独立変数に関する回帰係数は有意である。

導出 1

  • 回帰係数の正規性: β^N1+p(β,σ2(XTX)1) \hat{\beta} \sim N_{1+p} \left( \beta , \sigma^{2} \left( X^{T} X \right)^{-1} \right)
  • 残差平方和の不偏推定量と回帰係数の標準誤差: Eσ2^=E[1np1i=1n(yiy^i)2]=σ2 E \widehat{\sigma^{2}} = E \left[ {{ 1 } \over { n-p-1 }} \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] = \sigma^{2} s.e.(β^k)=σ^[(XTX)1]kk \text{s.e.} \left( \hat{\beta}_{k} \right) = \hat{\sigma} \sqrt{ \left[ \left( X^{T} X \right)^{-1} \right]_{kk} }

回帰係数の推定値βj^\hat{ \beta_{j} }標準誤差se(βj^)\text{se} \left( \hat{ \beta_{j} } \right)についてtjt_{j}を次のように置こう。 tj:=βj^se(βj^) t_{j} := {{\hat{ \beta_{j} }} \over {\text{se} \left( \hat{ \beta_{j} } \right)}}

  • カイ二乗分布に従う確率変数の和: 確率変数X1,,XnX_{1} , \cdots , X_{n}相互独立とする。Xiχ2(ri)X_i \sim \chi^2 ( r_{i} )ならば i=1nXiχ2(i=1nri) \sum_{i=1}^{n} X_{i} \sim \chi ^2 \left( \sum_{i=1}^{n} r_{i} \right)

残差平方和i=1n(yiy^i)2/σ2\sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} / \sigma^{2}はデータの数がnn個、独立変数がpp個と11個の定数項のサンプル平均を使用する―独立な確率変数は(np1)(n-p-1)個しか使用されていないため、自由度(np1)(n-p-1)カイ二乗分布に従い、帰無仮説の下では―帰無仮説が真であると仮定するとβj=0\beta_{j} = 0であることからβ^jN(0,σ2(XTX)jj1)\hat{\beta}_{j} \sim N \left( 0 , \sigma^{2} \left( X^{T} X \right)^{-1}_{jj} \right)が得られる。 tj=βj^se(βj^)=βj^0σ^[(XTX)1]kk=βj^0i=1n(yiy^i)2np1[(XTX)1]kk=βj^0[(XTX)1]kki=1n(yiy^i)2np1=βj^0σ[(XTX)1]kki=1n(yiy^i)2σ2/(np1)N(0,1)χ2(np1)/np1 \begin{align*} t_{j} =& {{\hat{ \beta_{j} }} \over {\text{se} \left( \hat{ \beta_{j} } \right)}} \\ =& {{\hat{ \beta_{j}} - 0 } \over { \hat{\sigma} \sqrt{ \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } }} \\ =& {{\hat{ \beta_{j}} - 0 } \over { \sqrt{ {{ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} } \over { n-p-1 }} \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } }} \\ =& {{ {{ \hat{ \beta_{j}} - 0 } \over { \sqrt{ \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } }} } \over { \sqrt{ {{ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} } \over { n-p-1 }} } }} \\ =& {{ {{ \hat{ \beta_{j} } - 0 } \over { \sigma \sqrt{ \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } }} } \over { \sqrt{ {{ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} } \over { \sigma^{2} }} / (n-p-1) } }} \\ \sim & {{ N (0,1) } \over { \sqrt{\chi^{2} (n-p-1) / n-p-1} }} \end{align*}

  • t分布の導出: 2つの確率変数W,VW,V独立でありWN(0,1)W \sim N(0,1)Vχ2(r)V \sim \chi^{2} (r)とすると T=WV/rt(r) T = { {W} \over {\sqrt{V/r} } } \sim t(r)

結論として、tjt_{j}自由度(np1)(n-p-1)t分布に従う。再び式で表すと tj=βj^se(βj^)t(np1) t_{j} = {{\hat{ \beta_{j} }} \over {\text{se} \left( \hat{ \beta_{j} } \right)}} \sim t(n-p-1) で、これを使って仮説検定を行う。もし tjt(np1,α2) \left| t_j \right| \ge t_{(n-p-1 , {{\alpha} \over {2}})} であれば帰無仮説を棄却する。tj\left| t_j \right|がその程度大きいということは、帰無仮説が真であると信じるにはβj^\hat{ \beta_{j} }が大きすぎるという意味である。

説明

jj番目の変数と有意水準α\alphaに対する信頼区間βj^±t(np1,α2)se(βj^)\hat{ \beta_{j} } \pm t_{(n-p-1 , {{\alpha} \over {2}})} \text{se} ( \hat{ \beta_{j}} )も計算できる。

導出過程は落ち着いて書かれているが、実際に回帰分析を学ぶ学部生が理解するにはかなり難しいかもしれない。tjt_{j}がt分布に従うこと自体はそんなに難しくないが、その補助定理として回帰係数の分布を知る必要があり、モデル診断の概念をしっかりと把握している必要がある。

一緒に見る


  1. Hadi. (2006). Regression Analysis by Example(4th Edition): p0. ↩︎