線形回帰分析におけるSST = SSR + SSEの証明
📂統計的分析線形回帰分析におけるSST = SSR + SSEの証明
定理
y1y2⋮yn=11⋮1x11x12⋮x1n⋯⋯⋱⋯xp1xp2⋮xpnβ0β1⋮βp+ε1ε2⋮εn
n 個のデータが与えられており p<n とすると、線形重回帰モデルを計画行列で表すと上記のようになり、簡単に Y=Xβ+ε と表そう。 β に対する最小二乗の推定量ベクトル
β=(β0,β1,⋯,βp)=(XTX)−1XTY
は最良線形不偏推定量としよう。次に、平均 y, 適合値 y^k, SST, SSR, SSE を次のように定義する。
y=y^k=SST=SSR=SSE=n1k=1∑nykβ0+β1xk1+⋯+βpxkpk=1∑n(yk−y)2k=1∑n(y^k−y)2k=1∑n(yk−y^k)2
SST, SSR, SSE は次のような関係を持つ。
SST=SSR+SSE
証明
単純回帰分析ならともかく、重回帰分析では補助定理の証明のために行列関数の偏微分といったものが登場するため、思ったより難しい。実際、インターネットで証明を探してみても ∑k=1nyk=∑k=1ny^k という部分が数式的にどういう感じなのかを示すだけで回避する場合がほとんどだ。回帰分析を学び始めた段階なら、このようなものがあるのかと一旦見過ごし、後で再度確認することをお勧めする。
Part 1. SST=SSR+SSE+⋯
====SSTk=1∑n(yk−y)2k=1∑n(yk−y^k+y^k−y)2k=1∑n(y^k−y)2+k=1∑n(yk−y^k)2+2k=1∑n(yk−y^k)(y^k−y)SSR+SSE+2k=1∑n(yk−y^k)(y^k−y)
なので、最後の項
=k=1∑n(yk−y^k)(y^k−y)k=1∑n(yk−y^k)y^k−yk=1∑n(yk−y^k)
が 0 であることを示せば証明は終わりだ。
Part 2. y∑k=1n(yk−y^k)=0
重回帰分析における適合値の和: β^ が最良線形不偏推定量であれば、 yk の和と適合値 y^k=1=β^0+∑j=1pβ^jxj の和は等しい:
k=1∑nyk=k=1∑ny^k
補助定理によれば ∑k=1nyk=∑k=1ny^k なので ∑k=1n(yk−y^k)=0 でなければならない。この投稿では単に補助定理を使って流しているように見えるが、思ったよりも重要な部分だ。補助定理の証明は必ず理解するようにしよう。
Part 3. ∑k=1n(yk−y^k)y^k=0
y^1⋮y^n=Xβ
適合値 y^1,⋯,y^n のベクトルは上記のように X と β の積で表すことができる。単位行列 E と零行列 O に対し、次のように数式を展開しよう。
===========k=1∑n(yk−y^k)y^k[y1−y^1⋯yn−y^n]y^1⋮y^n(YT−(Xβ)T)y^1⋮y^n(Y−Xβ)TXβ(Y−X(XTX)−1XTY)TXβ([E−X(XTX)−1XT]Y)TXβYT(E−X(XTX)−1XT)TXβYT(XT[E−X(XTX)−1XT])TβYT(XT−XTX(XTX)−1XT)TβYT(XT−XT)TβYTOTβ0
結果的に、次の等式が得られる。
SST=SSR+SSE
■