回帰係数のt検定
📂統計的検定回帰係数のt検定
仮説検定
y1y2⋮yn=11⋮1x11x12⋮x1n⋯⋯⋱⋯xp1xp2⋮xpnβ0β1⋮βp+ε1ε2⋮εn
独立変数がp個、n個のデータが与えられた時、線形多重回帰モデルを設計行列で表すと上のようになり、簡単にY=Xβ+εとしよう。モデル診断で残差が線形性や等分散性、独立性、正規性を満たすとする。多重回帰分析で各回帰係数に対する仮説検定は次の通り。
- H0:βj=0つまり、j番目の独立変数は従属変数との相関関係がない。
- H1:βj=0つまり、j番目の独立変数に関する回帰係数は有意である。
導出
- 回帰係数の正規性:
β^∼N1+p(β,σ2(XTX)−1)
- 残差平方和の不偏推定量と回帰係数の標準誤差:
Eσ2=E[n−p−11i=1∑n(yi−y^i)2]=σ2
s.e.(β^k)=σ^[(XTX)−1]kk
回帰係数の推定値βj^と標準誤差se(βj^)についてtjを次のように置こう。
tj:=se(βj^)βj^
- カイ二乗分布に従う確率変数の和: 確率変数X1,⋯,Xnが相互独立とする。Xi∼χ2(ri)ならば
i=1∑nXi∼χ2(i=1∑nri)
残差平方和∑i=1n(yi−y^i)2/σ2はデータの数がn個、独立変数がp個と1個の定数項のサンプル平均を使用する―独立な確率変数は(n−p−1)個しか使用されていないため、自由度(n−p−1)のカイ二乗分布に従い、帰無仮説の下では―帰無仮説が真であると仮定するとβj=0であることからβ^j∼N(0,σ2(XTX)jj−1)が得られる。
tj=====∼se(βj^)βj^σ^[(XTX)−1]kkβj^−0n−p−1∑i=1n(yi−y^i)2[(XTX)−1]kkβj^−0n−p−1∑i=1n(yi−y^i)2[(XTX)−1]kkβj^−0σ2∑i=1n(yi−y^i)2/(n−p−1)σ[(XTX)−1]kkβj^−0χ2(n−p−1)/n−p−1N(0,1)
- t分布の導出: 2つの確率変数W,Vが独立でありW∼N(0,1)、V∼χ2(r)とすると
T=V/rW∼t(r)
結論として、tjは自由度(n−p−1)のt分布に従う。再び式で表すと
tj=se(βj^)βj^∼t(n−p−1)
で、これを使って仮説検定を行う。もし
∣tj∣≥t(n−p−1,2α)
であれば帰無仮説を棄却する。∣tj∣がその程度大きいということは、帰無仮説が真であると信じるにはβj^が大きすぎるという意味である。
■
説明
j番目の変数と有意水準αに対する信頼区間βj^±t(n−p−1,2α)se(βj^)も計算できる。
導出過程は落ち着いて書かれているが、実際に回帰分析を学ぶ学部生が理解するにはかなり難しいかもしれない。tjがt分布に従うこと自体はそんなに難しくないが、その補助定理として回帰係数の分布を知る必要があり、モデル診断の概念をしっかりと把握している必要がある。
一緒に見る