logo

ベイズ推定における平均二乗誤差のベイズ推定量は、事後分布の期待値である。 📂数理統計学

ベイズ推定における平均二乗誤差のベイズ推定量は、事後分布の期待値である。

定理

平均二乗誤差に対するベイズ推定量は事後分布の期待値である。

$$ \begin{align*} E_{\Theta}[\Theta | X] &= \argmin_{\phi} \int (\theta - \phi(x))^{2} p(\theta | x) \mathrm{d}\theta \\ &= \argmin_{\phi} E_{\Theta} \left[(\Theta - \phi(X))^2 | X \right] \end{align*} $$

説明

ベイズ推定量とは以下の積分を最小化するパラメータ $\theta$ に対する推定量 $\phi(X)$ をいう。

$$ \phi(X) = \argmin_{\phi} \int \mathcal{L}(\theta, \phi(x)) p(\theta | x) \mathrm{d}\theta $$

この定理は損失関数が二乗誤差 $\mathcal{L}(\theta, \phi(x)) = (\theta - \phi(x))^{2}$ のとき、二乗誤差の期待値を最小化するのが事後分布の期待値であることを示す。

証明

解析的解法

最小値を与える $\phi$ を求めるために、上の積分を $\phi$ について微分して $0$ となる $\phi$ を求めよう。

$$ \begin{align*} & \dfrac{\mathrm{d} }{\mathrm{d} \phi(x)} \int (\theta - \phi(x))^{2} p(\theta | x) \mathrm{d}\theta \\ &= \int 2(\theta - \phi(x)) p(\theta | x) \mathrm{d}\theta \\ &= 2 \left( \int \theta p(\theta | x) \mathrm{d}\theta - \int \phi(x) p(\theta | x) \mathrm{d}\theta \right) \\ &= 0 \end{align*} $$

$$ \implies \int \phi(x) p(x | \theta) \mathrm{d}\theta = \int \theta p(\theta | x) \mathrm{d}\theta $$

ここで左辺の $\phi(x)$ は積分の外に出て、残るのは確率密度関数の積分だから値は1である。右辺は事後分布の期待値である。したがって次を得る。

$$ \phi(x) = \int \theta p(\theta | x) \mathrm{d}\theta = E_{\Theta} [\Theta | X] $$

したがってベイズ推定量は事後分布の期待値である。

$$ E_{\Theta}[\Theta | X] = \argmin_{\phi} \int (\theta - \phi(x))^{2} p(\theta | x) \mathrm{d}\theta = \argmin_{\phi} E_{\Theta} \left[(\Theta - \phi(X))^2 | X \right] $$

代数的解法

最小化する式は以下のとおりである。

$$ E_{\Theta}[(\Theta - \phi(X))^2 | X] $$

二乗項の中に事後分布の期待値 $\mu = E_{\Theta}[\Theta | X]$ を引いて足すと次のようになる。

$$ \begin{align*} &E_{\Theta}[(\Theta - \phi(X))^2 | X] \\ &= E_{\Theta}\left[ ((\Theta - \mu) + (\mu - \phi(X)))^2 | X \right] \\ &= E_{\Theta}\left[ (\Theta - \mu)^{2} + 2(\Theta - \mu)(\mu - \phi(X)) + (\mu - \phi(X))^{2} | X \right] \\ &= E_{\Theta}\left[ (\Theta - \mu)^{2} | X \right] + 2 E_{\Theta}\left[(\Theta - \mu)(\mu - \phi(X)) | X \right] + E_{\Theta}\left[(\mu - \phi(X))^{2} | X \right] \\ \end{align*} $$

$\mu$ が事後分布の平均だから第一項は事後分布の分散である。第二項は以下のように計算される。

$$ \begin{align*} & 2 E_{\Theta}\left[(\Theta - \mu)(\mu - \phi(X)) | X \right] \\ &= 2 (\mu - \phi(X)) E_{\Theta}\left[ (\Theta - \mu) | X \right] \\ &= 2 (\mu - \phi(X)) \left( E_{\Theta}\left[\Theta | X \right] - E_{\Theta}\left[ \mu | X \right] \right) \\ &= 2 (\mu - \phi(X)) \left( \mu - \mu \right) \\ &= 0 \end{align*} $$

第三項は定数なので期待値を取っても同じである。したがって次を得る。

$$ E_{\Theta}[(\Theta - \phi(X))^2 | X] = \Var (\Theta | X) + (\mu - \phi(X))^2 $$

第一項である事後分布の分散は $\phi$ の変化と無関係な値なので、第二の二乗項を $0$ にする $\phi$ がベイズ推定量となる。したがって $\phi = \mu$ であり、$\mu$ は事後分布の期待値だから以下の結果を得る。

$$ E_{\Theta}[\Theta | X] = \argmin_{\phi} E_{\Theta} \left[(\Theta - \phi(X))^2 | X \right] $$