多重回帰分析における残差の分散の推定量と回帰係数の標準誤差
定理
$$ \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} $$ $p$ 個の独立変数と$n$ 個のデータが与えられた時、線形重回帰モデルを計画行列で表すと上のようになり、簡単に$Y = X \beta + \varepsilon$ と表そう。回帰係数の推定値は$\hat{\beta} = \left( X^{T} X \right)^{-1} X^{T} Y$ であるから、適合値のベクトル$\hat{Y}$ は $$ \hat{Y} = X \hat{\beta} = X \left( X^{T} X \right)^{-1} X^{T} Y $$ とわかっている。便宜上$P := X \left( X^{T} X \right)^{-1} X^{T}$ としよう。一方、残差は線形性を持つこと、つまり$\varepsilon_{1} , \cdots , \varepsilon_{n}$ の母平均は$0$ と仮定する。
残差平方和の期待値
- [1]: もし残差が等分散性も持っているなら、つまりある定数$\sigma > 0$ に対して$\varepsilon_{1} , \cdots , \varepsilon_{n} \sim \left( 0, \sigma^{2} \right)$ が成立するなら、$SSE$sum of Squared errorの期待値は次のようになる。 $$ E \left( SSE \right) = E \left[ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] = n \sigma^{2} - \sum_{i,j} E \left( y_{i} y_{j} \right) P_{ij} $$
残差平方和の分散に対する不偏推定量
- [2]: もし残差が独立性も持っているなら、つまり$\varepsilon_{1} , \cdots , \varepsilon_{n} \overset{\text{iid}}{\sim} \left( 0, \sigma^{2} \right)$ が成立するなら、$SSE$ の分散に対する不偏推定量$\widehat{\sigma^{2}}$は次のようになる。 $$ E \widehat{\sigma^{2}} = E \left[ {{ 1 } \over { n-p-1 }} \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] = \sigma^{2} $$
回帰係数の標準誤差
- [3] もし残差が正規性も持っているなら、つまり$\varepsilon_{1} , \cdots , \varepsilon_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right)$が成立するなら、回帰係数の標準誤差は次のようになる。 $$ \text{s.e.} \left( \hat{\beta}_{k} \right) = \hat{\sigma} \sqrt{ \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } $$
説明
ほとんどの統計学部の学生は、学校で回帰分析を初めて学ぶ時には、プロジェクトや他の科目に追われて、こうした数理統計学的な理論展開を大雑把に見過ごす場合が多い。意欲やモチベーションとは無関係に、内容が理解するには難しすぎるので、無理に勉強するのも効率が良くないと思う。証明が最初から理解できないと感じたら、失望せずに立ち去っても大丈夫。
しかし、修士以上で学業を続け、学部科目を復習するなら、ここに上手く整理された内容を見ることを強くお勧めする。重回帰分析のモデル診断で最も重要なのは線形性であり、次に等分散性、その次は独立性、その後が正規性であるが、回帰分析でのt-検定、F-検定を導くためには、正確にその順序で仮定が追加されなければならない。直感や経験からその序列を理解できないかもしれないが、理論学習だけで納得できるというのは、幸いである。
証明 1
戦略: そう簡単ではないかもしれない。数理統計学はともかくとして、最低でも行列代数について十分に学んでいなければならない。定理のステートメントで簡単に$P := X \left( X^{T} X \right)^{-1} X^{T}$ と示した$P$ が冪等idempotent、つまり射影作用素であること、つまり $$ \begin{align*} P^{2} =& X \left( X^{T} X \right)^{-1} X^{T} \cdot X \left( X^{T} X \right)^{-1} X^{T} \\ =& X \left( X^{T} X \right)^{-1} \left( X^{T} X \right) \left( X^{T} X \right)^{-1} X^{T} \\ =& X \left( X^{T} X \right)^{-1} X^{T} \\ =& P \\ =& P^{T} \end{align*} $$ したがって$P^{2} = P = P^{T}$ であり、その直交射影作用素 $(I-P)$ も射影作用素であるため、$\left( I - P \right) ^{2} = \left( I - P \right)$ が成り立つという事実を補助定理として使う。ここから難しいと感じるなら、無理に今この証明を見ようとせず、数年勉強してから再び戻ることをお勧めする。
[1] 2
クロネッカーデルタ$\delta_{ij} = \begin{cases} 1 & , \text{if } i = j \\ 0 & , \text{if } i \ne j \end{cases}$ について、次のことが成立する: $$ \begin{align*} E \left[ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] =& E \left[ \left( Y - P Y \right)^{T} \left( Y - P Y \right) \right] \\ =& E \left[ \left[ \left( I_{1+p} - P \right) Y \right] ^{T} \left[ \left( I_{1+p} - P \right) Y \right] \right] \\ =& E \left[ Y^{T} \left( I_{1+p} - P \right)^{T} \left( I_{1+p} - P \right) Y \right] \\ =& E \left[ Y^{T} \left( I_{1+p} - P \right) \left( I_{1+p} - P \right) Y \right] \\ =& E \left[ Y^{T} \left( I_{1+p} - P \right)^{2} Y \right] \\ =& E \left[ Y^{T} \left( I_{1+p} - P \right) Y \right] \\ =& E \left[ \sum_{i,j} y_{i} y_{j} \left( \delta_{ij} - P_{ij} \right) \right] \\ =& \sum_{i,j} E \left[ y_{i} y_{j} \delta_{ij} \right] - \sum_{i,j} E \left[ y_{i} y_{j} P_{ij} \right] \\ =& \sum_{i} E \left[ y_{i}^{2} \right] - \sum_{i,j} E \left[ y_{i} y_{j} \right] P_{ij} \\ =& n \sigma^{2} - \sum_{i,j} E \left[ y_{i} y_{j} \right] P_{ij} \end{align*} $$
■
[2]
残差が独立ということは、$i \ne j$の場合、$y_{i}$ と$y_{j}$ も相関関係がないということで、$i \ne j$ の時$E \left[ y_{i} y_{j} \right] = 0$ であり、$i = j$ の時、残差の線形性と等分散性により$E \left[ y_{i} y_{j} \right] = \sigma^{2}$ だから、次を得る: $$ \begin{align*} E \left[ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] =& n \sigma^{2} - \sum_{i,j} E \left[ y_{i} y_{j} \right] P_{ij} \\ =& n \sigma^{2} - \sum_{i} \sigma^{2} P_{ii} \end{align*} $$
トレースの巡回性: $$ \text{Tr}(ABC) = \text{Tr}(BCA) = \text{Tr}(CAB) $$
$\sum_{i} P_{ii}$ は$P$のトレース$\text{tr} P$ だから、 $$ \begin{align*} E \left[ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] =& n \sigma^{2} - \sigma^{2} \sum_{i} P_{ii} \\ =& \sigma^{2} \left( n - \text{tr} P \right) \\ =& \sigma^{2} \left( n - \text{tr} X \left( X^{T} X \right)^{-1} X^{T} \right) \\ =& \sigma^{2} \left( n - \text{tr} X^{T} X \left( X^{T} X \right)^{-1} \right) \\ =& \sigma^{2} \left( n - \text{tr} I_{1+p} \right) \\ =& \sigma^{2} \left( n - (1+p) \right) \end{align*} $$ を得る。両辺を$(n-p-1)$ で割ると、 $$ {{ 1 } \over { n-p-1 }} E \left[ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] = \sigma^{2} $$ だから、$\sigma^{2}$ の不偏推定量$\widehat{\sigma^{2}} = \sum \left( y_{i} - \hat{y}_{i} \right)^{2} / (n-p-1)$を得る。
■
[3]
回帰係数ベクトルの多変量正規性: $$ \hat{\beta} \sim N_{1+p} \left( \beta , \sigma^{2} \left( X^{T} X \right)^{-1} \right) $$
残差がiidで正規分布に従う場合、$\hat{\beta} = \left( \hat{\beta}_{0} , \cdots , \hat{\beta}_{p} \right)$の$k$番目の成分$\hat{\beta}_{k}$のマージナル確率分布も以下のような単変量正規分布に従う: $$ \hat{\beta}_{k} \sim N \left( \beta_{k} , \sigma^{2} \left[ \left( X^{T} X \right)^{-1} \right]_{kk} \right) $$
標準誤差の一般的な定義:ある推定量estimator $T$に対し、$T$ の標準偏差の推定値estimateを標準誤差standard errorという。 $$ \text{s.e.} \left( T \right) := \sqrt{ \widehat{ \operatorname{Var} \left( T \right) } } $$
$\operatorname{Var} \hat{\beta} = \sigma^{2} \left[ \left( X^{T} X \right)^{-1} \right]_{kk}$ だから、次を得る。 $$ \begin{align*} \text{s.e.} \left( \hat{\beta}_{k} \right) =& \sqrt{ \widehat{ \operatorname{Var} \left( \hat{\beta} \right) } } \\ =& \sqrt{ \widehat{\sigma^{2} \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } } \\ =& \sqrt{ {{ 1 } \over { n-p-1 }} \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } \\ =& \hat{\sigma} \sqrt{ \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } \end{align*} $$
■
Hadi. (2006). Regression Analysis by Example(4th Edition): p82~84. ↩︎
https://math.stackexchange.com/questions/2277739/why-is-the-denominator-n-p-1-in-estimation-of-variance ↩︎