機械学習におけるベイズ推論
📂機械学習機械学習におけるベイズ推論
概要
ベイズ推論Bayesian inferenceとは、ベイズの定理に基づいて事前の知識と観測されたデータを通じて母数の分布を推定する統計的方法である。
説明
確率変数 xが母数をθとするある確率分布に従うとしよう。このとき、xから抽出されたサンプルを見てθの分布を推定しようとするのがベイズ推論の目的である。ここで重要なのは、θの値ではなく、θの「分布」を推定するという点である。xが与えられたときのθに関する確率密度関数は、条件付き確率密度関数p(θ∣x)である。これはベイズの定理により以下のようになる。
p(θ∣x)=p(x)p(x∣θ)p(θ)
posterior=evidencelikelihood×prior
ここで求めようとしている左辺のp(θ∣x)を事後確率(分布)posterior probability (distribution)と呼び、xが抽出された後、つまり事象が発生した後のθに関する確率を指す。
右辺のp(x∣θ)を尤度likelihood, 可能度と呼ぶ。
右辺のp(θ)を事前確率(分布)prior probability (distribution)と呼ぶ。xを観測する前のθについての知識を表す。
右辺の分母 p(x)を証拠evidenceと呼ぶ。
データが従う分布は変わらないため、p(x)は変わらない。したがって次の式を得る。
p(θ∣x)∝p(x∣θ)p(θ)
posterior∝likelihood×prior
一方、条件付き確率密度関数の定義によれば、次が成立する。
p(θ∣x,y)=p(x,y)p(x,y∣θ)p(θ)=p(x,y)p(x,y∣θ)p(θ)p(y)p(y)(=p(x,y)p(x,y∣θ)p(θ)p(y)p(y))=p(x∣y)p(x∣y,θ)p(θ)(=p(x∣y)p(x∣y,θ)p(θ))
最大事後確率推定
p(θ∣x)が最大となるθを探すことを最大事後確率推定maximum a posteriori estimation、略してMAPという。p(x)はθに依存しない値であるため、事後確率が最大となるθMAPは以下のようになる。
θMAP=θargmaxp(θ∣x)=θargmaxp(x∣θ)p(θ)
また、対数関数は単調増加関数であるため、以下の形にもなる。
θMAP=θargmaxp(θ∣x)=θargmaxp(x∣θ)p(θ)=θargmaxlog[p(θ∣x)]=θargmaxlog[p(x∣θ)p(θ)]
最大尤度推定
MAPと対照的な概念として、事前確率を考慮せず、尤度のみを考慮する推定方法を最大尤度推定maximum likelihood estimation、略してML(E)という。θの尤度が最大となるθMLは以下のようになる。
θML=θargmaxp(x∣θ)=θargmaxlogp(x∣θ)
これは最大事後確率推定において事前確率を一様分布と仮定したものと同じである。