条件付き期待値は偏差の二乗和を最小化する
📂数理統計学条件付き期待値は偏差の二乗和を最小化する
要約
次のことが成り立つ。
E[Y∣X]=f(X)argminE[(Y−f(X))2∣X]
E[Y∣X]=f(X)argminE[(Y−f(X))2]
証明
(1)
f(X)argminE[(Y−f(X))2∣X]=f(X)argminE[Y2−2Yf(X)+f(X)2∣X]=f(X)argmin(E[Y2∣X]−2E[Yf(X)∣X]+E[f(X)2∣X])=f(X)argmin(−2E[Yf(X)∣X]+E[f(X)2∣X])
四番目の等号は最初の項がf(X)と無関係であるために成り立つ。
条件付き期待値のスムージング性質 (Pulling out known factors)
[a] E[f(X)Y∣X]=f(X)E[Y∣X]
条件付き期待値の性質により、上の式は再び以下のように整理される。
f(X)argmin(−2E[Yf(X)∣X]+E[f(X)2∣X])=[a]f(X)argmin(−2f(X)E[Y∣X]+f(X)2E[1∣X])=f(X)argmin(−2f(X)E[Y∣X]+f(X)2)
f(X)の最小値を見つけるために微分すると、
df(X)d(−2f(X)E[Y∣X]+f(X)2)=−2E[Y∣X]+2f(X)=0
⟹f(X)=E[Y∣X]
■
(2)
E[Y∣X]を引いて足して、前後にまとめよう。
f(X)argminE[(Y−f(X))2]=f(X)argminE[(Y−E[Y∣X]+E[Y∣X]−f(X))2]=f(X)argminE[((Y−E[Y∣X])+(E[Y∣X]−f(X)))2]
これは完全平方形(a+b)2=a2+b2+2abと同じであり、期待値の線形性により、
f(X)argminE[(Y−f(X))2]=f(X)argminE[((Y−E[Y∣X])+(E[Y∣X]−f(X)))2]=f(X)argmin(E[(Y−E[Y∣X])2]+E[(E[Y∣X]−f(X))2]+2E[(Y−E[Y∣X])(E[Y∣X]−f(X))])
最初の項はf(X)と無関係であるので、再び以下のように整理される。
f(X)argminE[(Y−f(X))2]=f(X)argmin(E[(E[Y∣X]−f(X))2]−2E[(Y−E[Y∣X])(E[Y∣X]−f(X))])
二番目の項を計算してみよう。
条件付き期待値のスムージング性質 (Pulling out known factors)
[a] E[f(X)Y∣X]=f(X)E[Y∣X]
条件付き期待値の性質 (Law of total expectation)
[b] EX[EY[Y∣X=x]]=EY[Y]
上の性質を(3)の二番目の項に適用すると、
E[(Y−E[Y∣X])(E[Y∣X]−f(X))]=[b]E[E[(Y−E[Y∣X])(E[Y∣X]−f(X))X]]=[a]E[(E[Y∣X]−f(X))E[(Y−E[Y∣X])X]]=linearityE[(E[Y∣X]−f(X))(E[Y∣X]−E[E[Y∣X]X])]
直上の数式から、最後の項はE[E[Y∣X]X]=[a]E[Y∣X]E[1∣X]=E[Y∣X]として計算されるので、
E[(Y−E[Y∣X])(E[Y∣X]−f(X))]=E[(E[Y∣X]−f(X))(E[Y∣X]−E[Y∣X])]=E[(E[Y∣X]−f(X))⋅0]=0
したがって、(3)の二番目の項は0であり、以下のように整理される。
f(X)argminE[(E[Y∣X]−f(X))2]
従って、
f(X)argminE[(Y−f(X))2]=f(X)argminE[(E[Y∣X]−f(X))2]=E[Y∣X]
■