베이즈 추정량
정의 1 2
베이즈추론에서 추정하려는 모수 $\theta$의 확률변수를 $\Theta$, 이에 의존하는 샘플의 확률변수를 $X$라 하자. $\theta$의 추정량을 $\phi(X)$와 같이 나타내자. 손실함수의 기댓값을 베이즈 위험(함수)Bayes risk (function)이라 한다.
$$ R(\Theta, \phi(X)) = E_{\Theta, X} \left[ \mathcal{L}(\Theta, \phi(X)) \right] = \int \int \mathcal{L}(\theta, \phi(x)) p(\theta, x) \mathrm{d}\theta \mathrm{d}x \tag{1} $$
베이즈 위험을 최소화하는 $\phi$를 찾는 것을 베이즈 추정Bayes estimate이라 하고, 그러한 최소인자 $\phi^{\ast}$를 $\theta$의 베이즈 추정량Bayes estimator이라 한다.
$$ \phi^{\ast} = \argmin\limits_{\phi} R(\Theta, \phi(X)) $$
설명
결합확률의 정의에 따라 $(1)$의 적분을 아래와 같이 쓸 수 있다. $p(\theta, x) = g(x) p(\theta | x) = h(\theta) p(x | \theta)$라고 하면,
$$ \int \left[ \int \mathcal{L}(\theta, \phi(x)) p(\theta | x) \mathrm{d}\theta \right] g(x) \mathrm{d}x = \int \left[ \int \mathcal{L}(\theta, \phi(x)) p(x | \theta) \mathrm{d}x \right] h(\theta) \mathrm{d}\theta \tag{2} $$
여기서 좌변의 괄호 안은 사후분포에 대한 손실함수의 기댓값이며, 이를 사후 기대손실posterior expected loss라 한다. $$ \begin{align*} \text{Posterior expected loss} &:= \int \mathcal{L}(\theta, \phi(x)) p(\theta | x) \mathrm{d}\theta \\ &\ = E_{\Theta} \left[ \mathcal{L}(\Theta, \phi(X)) | X = x \right] \end{align*} $$
$(2)$의 우변에서 괄호 안의 값은 각각의 고정된 $\theta$에 대한 위험함수이고, 식 전체는 그것의 기댓값이므로 기대 위험expected risk이라 불린다.
베이즈 위험을 최소화하는 관점에서 식 $(2)$의 좌변을 보자. 모든 $x$에 대해서 $g(x) > 0$이므로, 좌변을 최소화하려면 각괄호 내의 값이 각각의 고정된 $x$에 대해서 최소이면 된다. 다시말해 베이즈 위험(좌변의 식 전체)을 최소화하는 것이나 사후평균손실(좌변의 각괄호 내의 값)을 최소화하는 것이나 같다. 따라서 베이즈 위험이나 베이즈 추정량을 아래와 같이 정의해도 무관하다. 여러 문헌에서 정의가 다르다고 혼란을 느끼지 않도록 하자.
$$ \begin{align*} \text{Bayes risk} &:= E_{\Theta, X} \left[ \mathcal{L}(\Theta, \phi(X)) \right] \\[1em] &\ = E_{\Theta} \left[ \mathcal{L}(\Theta, \phi(X)) | X = x\right] \end{align*} $$
$$ \begin{align*} \text{Bayes estimator} &:= \argmin\limits_{\phi} E_{\Theta, X} \left[ \mathcal{L}(\Theta, \phi(X)) \right] \\[1em] &\ = \argmin\limits_{\phi} E_{\Theta} \left[ \mathcal{L}(\Theta, \phi(X)) | X = x\right] \end{align*} $$
성질
- 평균제곱오차에 대한 베이즈 추정량은 🔒사후분포의 평균이다. $$ \begin{align*} E_{\Theta}[\Theta | X] &= \argmin_{\phi} \int (\theta - \phi(x))^{2} p(\theta | x) \mathrm{d}\theta \\ &= \argmin_{\phi} E_{\Theta} \left[(\Theta - \phi(X))^2 | X \right] \end{align*} $$
Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p612. ↩︎

저희들의 저서 「줄리아 프로그래밍」이 2024 세종도서 학술부문에 선정되었습니다!

