logo

조건부 기대값은 편차제곱합을 최소화한다 📂수리통계학

조건부 기대값은 편차제곱합을 최소화한다

정리

다음이 성립한다.

E[YX]=arg minf(X)E[(Yf(X))2X] \begin{equation} E\left[ Y | X \right] = \argmin_{f(X)} E\left[ (Y - f(X))^{2} | X \right] \end{equation}

E[YX]=arg minf(X)E[(Yf(X))2] \begin{equation} E\left[ Y | X \right] = \argmin_{f(X)} E\left[ (Y - f(X))^{2} \right] \end{equation}

증명

(1)

arg minf(X)E[(Yf(X))2X]=arg minf(X)E[Y22Yf(X)+f(X)2X]=arg minf(X)(E[Y2X]2E[Yf(X)X]+E[f(X)2X])=arg minf(X)(2E[Yf(X)X]+E[f(X)2X]) \begin{align*} & \argmin_{f(X)} E\left[ (Y - f(X))^{2} | X \right] \\ &= \argmin_{f(X)} E\left[ Y^{2} - 2Yf(X) + f(X)^{2} | X \right] \\ &= \argmin_{f(X)} \left( E\left[ Y^{2} | X \right] - 2E\left[ Yf(X) | X \right] + E\left[ f(X)^{2} | X \right] \right) \\ &= \argmin_{f(X)} \left( - 2E\left[ Yf(X) | X \right] + E\left[ f(X)^{2} | X \right] \right) \\ \end{align*}

네번째 등호는 첫번째 항이 f(X)f(X)와 무관하기 때문에 성립한다.

조건부 기댓값의 스무딩 성질 (Pulling out known factors)(\text{Pulling out known factors})

[a] E[f(X)YX]=f(X)E[YX]E[f(X)Y | X] = f(X) E[Y | X]

조건부 기댓값의 성질에 의해 위 식은 다시 다음과 같이 정리된다.

arg minf(X)(2E[Yf(X)X]+E[f(X)2X])=[a]arg minf(X)(2f(X)E[YX]+f(X)2E[1X])=arg minf(X)(2f(X)E[YX]+f(X)2) \begin{align*} & \argmin_{f(X)} \left( - 2E\left[ Yf(X) | X \right] + E\left[ f(X)^{2} | X \right] \right) \\ &\overset{[a]}{=} \argmin_{f(X)} \left( - 2f(X) E\left[ Y| X \right] + f(X)^{2}E\left[ 1 | X \right] \right) \\ &= \argmin_{f(X)} \left( - 2f(X) E\left[ Y| X \right] + f(X)^{2} \right) \\ \end{align*}

최솟값이 되는 f(X)f(X)를 찾기 위해 미분하면,

d(2f(X)E[YX]+f(X)2)df(X)=2E[YX]+2f(X)=0 \dfrac{d (- 2f(X) E\left[ Y| X \right] + f(X)^{2})}{d f(X)} = -2E\left[ Y | X \right] + 2f(X) = 0     f(X)=E[YX] \implies f(X) = E[Y | X]

(2)1

E[YX]E\left[ Y | X \right]를 빼고 더해준 뒤 앞뒤로 묶자.

arg minf(X)E[(Yf(X))2]=arg minf(X)E[(YE[YX]+E[YX]f(X))2]=arg minf(X)E[((YE[YX])+(E[YX]f(X)))2] \begin{align*} \argmin_{f(X)} E\left[ (Y - f(X))^{2} \right] &= \argmin_{f(X)} E\left[ (Y - E\left[ Y | X \right] + E\left[ Y | X \right] - f(X))^{2} \right] \\ &= \argmin_{f(X)} E\left[ \Big( (Y - E\left[ Y | X \right]) + (E\left[ Y | X \right] - f(X)) \Big)^{2} \right] \end{align*}

이는 완전제곱꼴 (a+b)2=a2+b2+2ab(a + b)^{2} = a^{2} + b^{2} + 2ab과 같으므로, 기댓값의 선형성에 의해,

arg minf(X)E[(Yf(X))2]=arg minf(X)E[((YE[YX])+(E[YX]f(X)))2]=arg minf(X)(E[(YE[YX])2]+E[(E[YX]f(X))2]+2E[(YE[YX])(E[YX]f(X))]) \begin{align*} & \argmin_{f(X)} E\left[ (Y - f(X))^{2} \right] \\ &= \argmin_{f(X)} E\left[ \Big( (Y - E\left[ Y | X \right]) + (E\left[ Y | X \right] - f(X)) \Big)^{2} \right] \\ &= \argmin_{f(X)} \Big( E\left[ (Y - E\left[ Y | X \right])^{2} \right] + E\left[ (E\left[ Y | X \right] - f(X))^{2} \right] \\ &\qquad\qquad\qquad + 2 E\Big[ (Y - E\left[ Y | X \right])(E\left[ Y | X \right] - f(X)) \Big] \Big) \end{align*}

첫번째 항은 f(X)f(X)와 무관하므로 다시 다음과 같이 정리된다.

arg minf(X)E[(Yf(X))2]=arg minf(X)(E[(E[YX]f(X))2]2E[(YE[YX])(E[YX]f(X))]) \begin{align} & \argmin_{f(X)} E\left[ (Y - f(X))^{2} \right] \nonumber \\ &= \argmin_{f(X)} \Big( E\left[ (E\left[ Y | X \right] - f(X))^{2} \right] - 2 E\Big[ (Y - E\left[ Y | X \right])(E\left[ Y | X \right] - f(X)) \Big] \Big) \end{align}

두번째 항을 계산해보자.

조건부 기댓값의 스무딩 성질 (Pulling out known factors)(\text{Pulling out known factors})

[a] E[f(X)YX]=f(X)E[YX]E[f(X)Y | X] = f(X) E[Y | X]

조건부 기댓값의 성질 (Law of total expectation)(\text{Law of total expectation})

[b] EX[EY[YX=x]]=EY[Y]E_{X}\left[ E_{Y}\left[ Y | X = x \right] \right] = E_{Y}\left[ Y \right]

위의 성질을 (3)(3)의 두번째 항에 적용하면,

E[(YE[YX])(E[YX]f(X))]=[b]E[E[(YE[YX])(E[YX]f(X))X]]=[a]E[(E[YX]f(X))E[(YE[YX])X]]=linearityE[(E[YX]f(X))(E[YX]E[E[YX]X])] \begin{align*} & E\Big[ (Y - E\left[ Y | X \right])(E\left[ Y | X \right] - f(X)) \Big] \\ &\overset{[b]}{=} E \left[ E\Big[ (Y - E\left[ Y | X \right])(E\left[ Y | X \right] - f(X)) \Big| X \Big] \right] \\ &\overset{[a]}{=} E \left[ (E\left[ Y | X \right] - f(X)) E\Big[ (Y - E\left[ Y | X \right]) \Big| X \Big] \right] \\ &\overset{\text{linearity}}{=} E \left[ (E\left[ Y | X \right] - f(X)) \left( E[ Y | X ] - E \left[ E\left[ Y | X \right] \Big| X \right] \right) \right] \end{align*}

바로 위의 수식에서 마지막항은 E[E[YX]X]=[a]E[YX]E[1X]=E[YX]E \left[ E\left[ Y | X \right] \Big| X \right] \overset{[a]}{=} E\left[ Y | X \right] E \left[ 1 | X \right] = E\left[ Y | X \right] 와 같이 계산되므로,

E[(YE[YX])(E[YX]f(X))]=E[(E[YX]f(X))(E[YX]E[YX])]=E[(E[YX]f(X))0]=0 \begin{align*} & E\Big[ (Y - E\left[ Y | X \right])(E\left[ Y | X \right] - f(X)) \Big] \\ &= E \Big[ (E\left[ Y | X \right] - f(X)) \left( E[ Y | X ] - E\left[ Y | X \right] \right) \Big] \\ &= E \Big[ (E\left[ Y | X \right] - f(X)) \cdot 0 \Big] \\ &= 0 \end{align*}

따라서 (3)(3)의 두번째항은 00이고 다음과 같이 정리된다.

arg minf(X)E[(E[YX]f(X))2] \argmin_{f(X)} E\Big[ (E\left[ Y | X \right] - f(X))^{2} \Big]

그러므로,

arg minf(X)E[(Yf(X))2]=arg minf(X)E[(E[YX]f(X))2]=E[YX] \argmin_{f(X)} E\left[ (Y - f(X))^{2} \right] = \argmin_{f(X)} E\Big[ (E\left[ Y | X \right] - f(X))^{2} \Big] = E\left[ Y | X \right]