logo

機械学習におけるベイズ推論 📂機械学習

機械学習におけるベイズ推論

概要

ベイズ推論Bayesian inferenceとは、ベイズの定理に基づいて事前の知識と観測されたデータを通じて母数の分布を推定する統計的方法である。

説明

確率変数 x\mathbf{x}が母数をθ\thetaとするある確率分布に従うとしよう。このとき、x\mathbf{x}から抽出されたサンプルを見てθ\thetaの分布を推定しようとするのがベイズ推論の目的である。ここで重要なのは、θ\thetaの値ではなく、θ\thetaの「分布」を推定するという点である。x\mathbf{x}が与えられたときのθ\thetaに関する確率密度関数は、条件付き確率密度関数p(θx)p(\theta | \mathbf{x})である。これはベイズの定理により以下のようになる。

p(θx)=p(xθ)p(θ)p(x) p(\theta | \mathbf{x}) = \dfrac{p(\mathbf{x} | \theta) p(\theta)}{p(\mathbf{x})} posterior=likelihood×priorevidence \text{posterior} = \dfrac{\text{likelihood} \times \text{prior}}{\text{evidence}}

ここで求めようとしている左辺のp(θx)p(\theta | \mathbf{x})事後確率(分布)posterior probability (distribution)と呼び、x\mathbf{x}が抽出された後、つまり事象が発生した後のθ\thetaに関する確率を指す。

右辺のp(xθ)p(\mathbf{x} | \theta)尤度likelihood, 可能度と呼ぶ。

右辺のp(θ)p(\theta)事前確率(分布)prior probability (distribution)と呼ぶ。x\mathbf{x}を観測する前のθ\thetaについての知識を表す。

右辺の分母 p(x)p(\mathbf{x})証拠evidenceと呼ぶ。

データが従う分布は変わらないため、p(x)p(\mathbf{x})は変わらない。したがって次の式を得る。

p(θx)p(xθ)p(θ) p(\theta | \mathbf{x}) \propto p(\mathbf{x} | \theta) p(\theta) posteriorlikelihood×prior \text{posterior} \propto \text{likelihood} \times \text{prior}

一方、条件付き確率密度関数の定義によれば、次が成立する。

p(θx,y)=p(x,yθ)p(θ)p(x,y)=p(x,yθ)p(θ)p(x,y)p(y)p(y)(=p(x,yθ)p(θ)p(x,y)p(y)p(y))=p(xy,θ)p(θ)p(xy)(=p(xy,θ)p(θ)p(xy)) \begin{align*} p(\theta | \mathbf{x}, \mathbf{y}) &= \dfrac{p(\mathbf{x}, \mathbf{y} | \theta) p(\theta)}{p(\mathbf{x}, \mathbf{y})} \\ &= \dfrac{p(\mathbf{x}, \mathbf{y} | \theta) p(\theta)}{p(\mathbf{x}, \mathbf{y})} \dfrac{p(\mathbf{y})}{p(\mathbf{y})} \left( = \dfrac{{\color{royalblue}p(\mathbf{x}, \mathbf{y} | \theta)} p(\theta)}{\color{tomato}p(\mathbf{x}, \mathbf{y})} \dfrac{\color{tomato}p(\mathbf{y})}{\color{royalblue}p(\mathbf{y})} \right) \\ &= \dfrac{p(\mathbf{x} | \mathbf{y}, \theta) p(\theta)}{p(\mathbf{x} | \mathbf{y})} \left(= \dfrac{{\color{royalblue}p(\mathbf{x} | \mathbf{y}, \theta)} p(\theta)}{\color{tomato}p(\mathbf{x} | \mathbf{y})} \right) \\ \end{align*}

最大事後確率推定

p(θx)p(\theta | \mathbf{x})が最大となるθ\thetaを探すことを最大事後確率推定maximum a posteriori estimation、略してMAPという。p(x)p(\mathbf{x})θ\thetaに依存しない値であるため、事後確率が最大となるθMAP\theta_{\text{MAP}}は以下のようになる。

θMAP=arg maxθp(θx)=arg maxθp(xθ)p(θ) \begin{align*} \theta_{\text{MAP}} &= \argmax_{\theta} p(\theta | \mathbf{x}) \\ &= \argmax_{\theta} p(\mathbf{x} | \theta) p(\theta) \end{align*}

また、対数関数単調増加関数であるため、以下の形にもなる。

θMAP=arg maxθp(θx)=arg maxθp(xθ)p(θ)=arg maxθlog[p(θx)]=arg maxθlog[p(xθ)p(θ)] \begin{align*} \theta_{\text{MAP}} &= \argmax_{\theta} p(\theta | \mathbf{x}) \\ &= \argmax_{\theta} p(\mathbf{x} | \theta) p(\theta) \\ &= \argmax_{\theta} \log [p(\theta | \mathbf{x})] \\ &= \argmax_{\theta} \log [p(\mathbf{x} | \theta)p(\theta)] \end{align*}

最大尤度推定

MAPと対照的な概念として、事前確率を考慮せず、尤度のみを考慮する推定方法を最大尤度推定maximum likelihood estimation、略してML(E)という。θ\thetaの尤度が最大となるθML\theta_{\text{ML}}は以下のようになる。

θML=arg maxθp(xθ)=arg maxθlogp(xθ) \begin{align*} \theta_{\text{ML}} &= \argmax_{\theta} p(\mathbf{x} | \theta) \\ &= \argmax_{\theta} \log p(\mathbf{x} | \theta) \end{align*}

これは最大事後確率推定において事前確率を一様分布と仮定したものと同じである。