機械学習における線形回帰モデルの最大事後確率推定
📂機械学習機械学習における線形回帰モデルの最大事後確率推定
定理
データxi∈Rnとそのラベルyi∈Rの関係が以下の線形モデルであると仮定する。
yi=wTxi+ϵi,i=1,…,K(1)
事後確率が最大となるパラメータwMAPは次の通りである。y=[y1⋯yK]TとX=[x1⋯xK]T∈Rn×Kについて、
事前分布が正規分布の場合:
wMAP=(σ21XTX+Σ−1)−1(σ21XTy+Σ−1μ)
このとき、μとΣはそれぞれwの事前分布の平均ベクトルと共分散行列である。
事前分布がラプラス分布の場合:
最適解の明示的な形は存在しない。
説明
以下の(3)を見れば、wの事前分布として標準正規分布N(0,I)を仮定すると、リッジ回帰と同じ問題であることが分かる。
wargmin[2σ21∥y−Xw∥22+21∥w∥22]
一方、事前分布として🔒(25/05/16)ラプラス分布Laplace(0,b)を仮定すると、ラッソ回帰と同じ問題である。
wargmin[2σ21∥y−Xw∥22+b1∥w∥1]
事前分布=正規分布
(1)でw∈Rnは母数パラメータであり、ϵi∼N(0,σ2)をガウシアンノイズと仮定する。ϵiがN(0,σ2)に従うと仮定したので、yi=wTxi+ϵiはN(wTxi,σ2)に従う。
yi∼N(wTxi,σ2)
最大事後確率推定は次を満足するwMAPを求めるものである。
wMAP=wargmaxp(y∣w,X)p(w)(2)
p(y∣w,X)は尤度であり、p(w)は事前確率である。尤度関数は次の通りである。
p(y∣w,X)=(2πσ2)K/21exp[−2σ21∥y−Xw∥22]
また、wの事前分布が以下のような多変量正規分布に従うと仮定する。
w∼N(μ,Σ),p(w)=(2π)ndetΣ1exp[−21(w−μ)TΣ−1(w−μ)]
事後確率が指数関数で表現されるため、対数尤度を考慮することが計算上便利である。
wMAP=wargmaxlog(p(y∣w,X)p(w))=wargmax[−2σ21∥y−Xw∥22−21(w−μ)TΣ−1(w−μ)]=wargmin[2σ21∥y−Xw∥22+21(w−μ)TΣ−1(w−μ)](3)
したがって、上式を微分して、0となるようなwがwMAPである。勾配を計算してみよう。
∇w[2σ21∥y−Xw∥22+21(w−μ)TΣ−1(w−μ)]=∇w[2σ21(y−Xw)T(y−Xw)+21(w−μ)TΣ−1(w−μ)]=∇w[2σ21(y−Xw)T(y−Xw)]+∇w[21(w−μ)TΣ−1(w−μ)]
微分の規則は以下を参照しよう。
ベクトルと行列の導関数
内積
∂x∂f(x)=∂x∂(wTx)=∂x∂(xTw)=w
ノルム
∇f(x)=∂x∂∥x∥2=∂x∂(xTx)=2x
二次形式
∂x∂f(x)=∂x∂(xRx)=(R+RT)x
Rが対称行列であれば、
∂x∂f(x)=2Rx
最初の項から微分を計算すると次のようになる。
∇w[2σ21(y−Xw)T(y−Xw)]=∇w[2σ21(yTy−2yTXw+wTXTXw)]=2σ21[−2XTy+2XTXw]=σ21[−XTy+XTXw]=−σ21XT(y−Xw)
次に第二項を計算すると以下のようになる。共分散行列は対称行列であり、対称行列の逆行列も対称行列であることから
∇w[21(w−μ)TΣ−1(w−μ)]=Σ−1(w−μ)
したがって次を得る。
−σ21XT(y−XwMAP)+Σ−1(wMAP−μ)=0
wMAPを求めるために上式を解くと次のようになる。
⟹⟹−σ21XTy+σ21XTXwMAP+Σ−1wMAP−Σ−1μ=0(σ21XTX+Σ−1)wMAP=σ21XTy+Σ−1μwMAP=(σ21XTX+Σ−1)−1(σ21XTy+Σ−1μ)
事前分布=ラプラス分布
いくつかの仮定や計算は、事前分布がラプラス分布であることを除けば、上と同じである。最大事後確率推定は次を満足するwMAPを求めるものである。
wMAP=wargmaxp(y∣w,X)p(w)
p(y∣w,X)は尤度であり、p(w)は事前確率である。尤度関数は次の通りである。
p(y∣w,X)=(2πσ2)K/21exp[−2σ21∥y−Xw∥22]
また、wの事前分布に関して、それぞれのwiが独立に🔒(25/05/16)ラプラス分布Laplace(μ,b)に従うと仮定しよう。
p(w)=i=1∏n2b1exp(−b∣wi−μ∣)
⟹logp(w)=−nlog2b−i=1∑n[b∣wi−μ∣]
事後確率が指数関数で表現されるため、対数尤度を考慮することが計算上便利である。
wMAP=wargmaxlog(p(y∣w,X)p(w))=wargmax[−2σ21∥y−Xw∥22−i=1∑nb∣wi−μ∣]=wargmin[2σ21∥y−Xw∥22+b1∥w−μ1∥1]
ここで、1∈Rnはすべての成分が1のベクトルである。ここでμ=0とすれば、ラッソ回帰と同じ形態になる。
wargmin[2σ21∥y−Xw∥22+b1∥w∥1]
残念ながら、この場合、最適解の閉じた形closed formがないことが知られている。
関連情報