조건부 기대값은 편차제곱합을 최소화한다
📂수리통계학조건부 기대값은 편차제곱합을 최소화한다
정리
다음이 성립한다.
E[Y∣X]=f(X)argminE[(Y−f(X))2∣X]
E[Y∣X]=f(X)argminE[(Y−f(X))2]
증명
(1)
f(X)argminE[(Y−f(X))2∣X]=f(X)argminE[Y2−2Yf(X)+f(X)2∣X]=f(X)argmin(E[Y2∣X]−2E[Yf(X)∣X]+E[f(X)2∣X])=f(X)argmin(−2E[Yf(X)∣X]+E[f(X)2∣X])
네번째 등호는 첫번째 항이 f(X)와 무관하기 때문에 성립한다.
조건부 기댓값의 스무딩 성질 (Pulling out known factors)
[a] E[f(X)Y∣X]=f(X)E[Y∣X]
조건부 기댓값의 성질에 의해 위 식은 다시 다음과 같이 정리된다.
f(X)argmin(−2E[Yf(X)∣X]+E[f(X)2∣X])=[a]f(X)argmin(−2f(X)E[Y∣X]+f(X)2E[1∣X])=f(X)argmin(−2f(X)E[Y∣X]+f(X)2)
최솟값이 되는 f(X)를 찾기 위해 미분하면,
df(X)d(−2f(X)E[Y∣X]+f(X)2)=−2E[Y∣X]+2f(X)=0
⟹f(X)=E[Y∣X]
■
(2)
E[Y∣X]를 빼고 더해준 뒤 앞뒤로 묶자.
f(X)argminE[(Y−f(X))2]=f(X)argminE[(Y−E[Y∣X]+E[Y∣X]−f(X))2]=f(X)argminE[((Y−E[Y∣X])+(E[Y∣X]−f(X)))2]
이는 완전제곱꼴 (a+b)2=a2+b2+2ab과 같으므로, 기댓값의 선형성에 의해,
f(X)argminE[(Y−f(X))2]=f(X)argminE[((Y−E[Y∣X])+(E[Y∣X]−f(X)))2]=f(X)argmin(E[(Y−E[Y∣X])2]+E[(E[Y∣X]−f(X))2]+2E[(Y−E[Y∣X])(E[Y∣X]−f(X))])
첫번째 항은 f(X)와 무관하므로 다시 다음과 같이 정리된다.
f(X)argminE[(Y−f(X))2]=f(X)argmin(E[(E[Y∣X]−f(X))2]−2E[(Y−E[Y∣X])(E[Y∣X]−f(X))])
두번째 항을 계산해보자.
조건부 기댓값의 스무딩 성질 (Pulling out known factors)
[a] E[f(X)Y∣X]=f(X)E[Y∣X]
조건부 기댓값의 성질 (Law of total expectation)
[b] EX[EY[Y∣X=x]]=EY[Y]
위의 성질을 (3)의 두번째 항에 적용하면,
E[(Y−E[Y∣X])(E[Y∣X]−f(X))]=[b]E[E[(Y−E[Y∣X])(E[Y∣X]−f(X))X]]=[a]E[(E[Y∣X]−f(X))E[(Y−E[Y∣X])X]]=linearityE[(E[Y∣X]−f(X))(E[Y∣X]−E[E[Y∣X]X])]
바로 위의 수식에서 마지막항은 E[E[Y∣X]X]=[a]E[Y∣X]E[1∣X]=E[Y∣X]와 같이 계산되므로,
E[(Y−E[Y∣X])(E[Y∣X]−f(X))]=E[(E[Y∣X]−f(X))(E[Y∣X]−E[Y∣X])]=E[(E[Y∣X]−f(X))⋅0]=0
따라서 (3)의 두번째항은 0이고 다음과 같이 정리된다.
f(X)argminE[(E[Y∣X]−f(X))2]
그러므로,
f(X)argminE[(Y−f(X))2]=f(X)argminE[(E[Y∣X]−f(X))2]=E[Y∣X]
■