베이즈추정에서 평균제곱오차의 베이즈 추정량은 사후분포의 기댓값이다 📂수리통계학

베이즈추정에서 평균제곱오차의 베이즈 추정량은 사후분포의 기댓값이다

정리

$$ \begin{align*} E_{\Theta}[\Theta | X] &= \argmin_{\phi} \int (\theta - \phi(x))^{2} p(\theta | x) \mathrm{d}\theta \\ &= \argmin_{\phi} E_{\Theta} \left[(\Theta - \phi(X))^2 | X \right] \end{align*} $$

설명

베이즈 추정량이란 아래의 적분을 최소화하는 모수 $\theta$에 대한 추정량 $\phi(X)$를 말한다.

$$ \phi(X) = \argmin_{\phi} \int \mathcal{L}(\theta, \phi(x)) p(\theta | x) \mathrm{d}\theta $$

위 정리는 손실함수가 제곱오차 $\mathcal{L}(\theta, \phi(x)) = (\theta - \phi(x))^{2}$일 때 제곱오차의 기댓값을 최소로 만드는 것이 사후분포의 기댓값이라는 것을 말한다.

증명

해석적 풀이

최솟값이 되는 $\phi$를 찾기 위해 위 적분을 $\phi$에 대해 미분하여 $0$이 되는 $\phi$를 구하자.

$$ \begin{align*} & \dfrac{\mathrm{d} }{\mathrm{d} \phi(x)} \int (\theta - \phi(x))^{2} p(\theta | x) \mathrm{d}\theta \\ &= \int 2(\theta - \phi(x)) p(\theta | x) \mathrm{d}\theta \\ &= 2 \left( \int \theta p(\theta | x) \mathrm{d}\theta - \int \phi(x) p(\theta | x) \mathrm{d}\theta \right) \\ &= 0 \end{align*} $$

$$ \implies \int \phi(x) p(x | \theta) \mathrm{d}\theta = \int \theta p(\theta | x) \mathrm{d}\theta $$

여기서 좌변의 $\phi(x)$는 적분 밖으로 빠지고 남은 것은 확률밀도함수의 적분이므로 값이 1이다. 우변은 사후분포의 기댓값이다. 그러므로 다음을 얻는다.

$$ \phi(x) = \int \theta p(\theta | x) \mathrm{d}\theta = E_{\Theta} [\Theta | X] $$

따라서 베이즈 추정량은 사후분포의 기댓값이다.

$$ E_{\Theta}[\Theta | X] = \argmin_{\phi} \int (\theta - \phi(x))^{2} p(\theta | x) \mathrm{d}\theta = \argmin_{\phi} E_{\Theta} \left[(\Theta - \phi(X))^2 | X \right] $$

■

대수적 풀이

최소화하려는 식은 아래와 같다.

$$ E_{\Theta}[(\Theta - \phi(X))^2 | X] $$

제곱항 안에 사후분포의 기댓값 $\mu = E_{\Theta}[\Theta | X]$를 빼고 더하면 다음과 같다.

$$ \begin{align*} &E_{\Theta}[(\Theta - \phi(X))^2 | X] \\ &= E_{\Theta}\left[ ((\Theta - \mu) + (\mu - \phi(X)))^2 | X \right] \\ &= E_{\Theta}\left[ (\Theta - \mu)^{2} + 2(\Theta - \mu)(\mu - \phi(X)) + (\mu - \phi(X))^{2} | X \right] \\ &= E_{\Theta}\left[ (\Theta - \mu)^{2} | X \right] + 2 E_{\Theta}\left[(\Theta - \mu)(\mu - \phi(X)) | X \right] + E_{\Theta}\left[(\mu - \phi(X))^{2} | X \right] \\ \end{align*} $$

$\mu$가 사후분포의 평균이므로 첫번째 항은 사후분포의 분산이다. 두번째 항은 아래와 같이 계산된다.

$$ \begin{align*} & 2 E_{\Theta}\left[(\Theta - \mu)(\mu - \phi(X)) | X \right] \\ &= 2 (\mu - \phi(X)) E_{\Theta}\left[ (\Theta - \mu) | X \right] \\ &= 2 (\mu - \phi(X)) \left( E_{\Theta}\left[\Theta | X \right] - E_{\Theta}\left[ \mu | X \right] \right) \\ &= 2 (\mu - \phi(X)) \left( \mu - \mu \right) \\ &= 0 \end{align*} $$

세번째항은 상수이므로 기댓값을 취해도 같다. 따라서 다음을 얻는다.

$$ E_{\Theta}[(\Theta - \phi(X))^2 | X] = \Var (\Theta | X) + (\mu - \phi(X))^2 $$

첫번째 항인 사후분포의 분산은 $\phi$의 변화와는 무관한 값이므로, 두번째 제곱항을 $0$으로 만드는 $\phi$가 베이즈 추정량이 된다. 따라서 $\phi = \mu$이고, $\mu$는 사후분포의 기댓값이므로 아래의 결과를 얻는다.

$$ E_{\Theta}[\Theta | X] = \argmin_{\phi} E_{\Theta} \left[(\Theta - \phi(X))^2 | X \right] $$

■