モンテカルロ積分
📂機械学習モンテカルロ積分
概要
モンテカルロ積分は、与えられた関数の積分を計算するのが困難な場合に使用される数値的近似方法の一つである。次のような状況を想定しよう。与えられた [0,1]または一般的に [0,1]nで積分可能な関数 fに対して、私たちは f(x)の式を知っているが、その積分を計算するのは簡単ではない。しかし、私たちは fの積分 I[f]を計算したい。
I[f]=∫[0,1]f(x)dx
定義
モンテカルロ積分Monte Carlo integrationとは、与えられた [0,1] 上での分布に基づきサンプル {xi}を抽出し、fの積分を次のように推定estimateする方法である。
I[f]≈In[f]:=n1i=1∑nf(xi)
区分求積法との違い
区分求積法のアイデアは、区間 [0,1]を n等分し、点 {xi=ni−1}i=1nを得て、これらの点での関数値を全て加算することである。
区分求積法[f]=n1i=1∑nf(xi)
式の見た目だけではモンテカルロ積分と区分求積法は異なるもののないように見えるが、その意味は全く異なる。区分求積法での {xi}は区間 [0,1]を n等分して得た点であるのに対し、モンテカルロ積分では xが従う分布 p(x)から抽出された n個のサンプルを意味する。したがって、区分求積法で得られた値は単純に fが描くグラフの下の面積を意味するが、モンテカルロ積分で得られた値は fの期待値である。
性質
式 (1)が持つ統計的な意味は「I[f]は Xが一様分布に従うときの f(X)の期待値と同じである」ということである。
X∼U(0,1)⟹I[f]=∫[0,1]f(x)dx=E[f(X)]
期待値
確率変数 Xが一様分布に従うとしよう。In[f]は I[f]の不偏推定量である。
E[In[f]]=I[f]
証明
E[In[f]]=E[n1i=1∑nf(Xi)]=n1i=1∑nE[f(Xi)]by linearity of E=n1i=1∑nI[f]=I[f]
■
分散
証明
分散の性質
[a] Var(aX)=a2Var(X)\Var (aX) = a^{2} \Var (X)Var(aX)=a2Var(X)
[b] X,YX, YX,Yが独立ならば、Var(X+Y)=Var(X)+Var(Y)\Var (X + Y) = \Var(X) + \Var(Y)Var(X+Y)=Var(X)+Var(Y)
f(X)f(X)f(X)の分散を σ2\sigma^{2}σ2としよう。すると分散の性質により、
Var[In[f]]=Var[1n∑i=1nf(Xi)]=1n2Var[∑i=1nf(Xi)]=1n2∑i=1nVar[f(Xi)]=1n2∑i=1nσ2=σ2n
\begin{align*}
\Var \left[ I_{n}[f] \right]
&= \Var \left[ \dfrac{1}{n} \sum\limits_{i=1}^{n} f(X_{i}) \right] \\
&= \dfrac{1}{n^{2}} \Var \left[ \sum\limits_{i=1}^{n} f(X_{i}) \right] \\
&= \dfrac{1}{n^{2}} \sum\limits_{i=1}^{n} \Var \left[ f(X_{i}) \right] \\
&= \dfrac{1}{n^{2}} \sum\limits_{i=1}^{n} \sigma^{2} \\
&= \dfrac{\sigma^{2}}{n}
\end{align*}
Var[In[f]]=Var[n1i=1∑nf(Xi)]=n21Var[i=1∑nf(Xi)]=n21i=1∑nVar[f(Xi)]=n21i=1∑nσ2=nσ2
■
一般化
ここで p(x)≥0p(x) \ge 0p(x)≥0で ∫[0,1]p=1\int_{[0,1]} p = 1∫[0,1]p=1となる関数 pppについて、積分 I[fp]I[fp]I[fp]を考えよう。
I[fp]=∫[0,1]f(x)p(x)dx
I[fp] = \int_{[0, 1]}f(x)p(x) dx
I[fp]=∫[0,1]f(x)p(x)dx
これは確率密度関数が pppである確率変数 XXXについて、f(X)f(X)f(X)の期待値と同じである。この値を近似する方法として、次の二つの方法が考えられる。
- サンプル {xi}i=1n\left\{ x_{i} \right\}_{i=1}^{n}{xi}i=1nを一様分布から抽出し、I[fp]I[fp]I[fp]を次のように近似する。
Xi∼U(0,1)I[fp]≈1n∑if(xi)p(xi)
X_{i} \sim U(0,1) \qquad I[fp] \approx \dfrac{1}{n}\sum\limits_{i}f(x_{i})p(x_{i})
Xi∼U(0,1)I[fp]≈n1i∑f(xi)p(xi)
- サンプル {xi}i=1n\left\{ x_{i} \right\}_{i=1}^{n}{xi}i=1nを p(x)p(x)p(x)から抽出し、I[fp]I[fp]I[fp]を次のように近似する。
Xi∼p(x)I[fp]=Ip[f]≈1n∑if(xi)
X_{i} \sim p(x) \qquad I[fp] = I_{p}[f] \approx \dfrac{1}{n}\sum\limits_{i}f(x_{i})
Xi∼p(x)I[fp]=Ip[f]≈n1i∑f(xi)
言い換えれば、1.は f(x)p(x)f(x)p(x)f(x)p(x)を一様分布でサンプリングして平均を求めたものであり、2.は f(x)f(x)f(x)を p(x)p(x)p(x)でサンプリングして平均を求めたものである。これらのうち分散がより小さいのは1.である。I=I[fp]=I[fp]I = I[fp] = I[fp]I=I[fp]=I[fp]と簡単に記しよう。
1.の場合
σ12=Var[fp]=E[(fp−I)2]=∫(fp−I)2dx=∫(fp)2dx−2I∫fpdx+I2∫dx=∫(fp)2dx−2I2+I2=∫(fp)2dx−I2
\begin{align*}
\sigma_{1}^{2} = \Var [fp]
&= E \left[ (fp - I)^{2} \right] \\
&= \int (fp - I)^{2} dx \\
&= \int (fp)^{2} dx - 2I\int fp dx + I^{2}\int dx\\
&= \int (fp)^{2} dx - 2I^{2} + I^{2}\\
&= \int (fp)^{2} dx - I^{2}\\
\end{align*}
σ12=Var[fp]=E[(fp−I)2]=∫(fp−I)2dx=∫(fp)2dx−2I∫fpdx+I2∫dx=∫(fp)2dx−2I2+I2=∫(fp)2dx−I2
2.の場合
σ22=Var[f]=Ep[(f−I)2]=∫(f−I)2pdx=∫f2pdx−2I∫fpdx+I2∫pdx=∫f2pdx−2I2+I2=∫f2pdx−I2
\begin{align*}
\sigma_{2}^{2} = \Var [f]
&= E_{p} \left[ (f - I)^{2} \right] \\
&= \int (f - I)^{2}p dx \\
&= \int f^{2}p dx - 2I\int fp dx + I^{2}\int pdx\\
&= \int f^{2}p dx - 2I^{2} + I^{2}\\
&= \int f^{2}p dx - I^{2}\\
\end{align*}
σ22=Var[f]=Ep[(f−I)2]=∫(f−I)2pdx=∫f2pdx−2I∫fpdx+I2∫pdx=∫f2pdx−2I2+I2=∫f2pdx−I2
しかし 0≤p≤10 \le p \le 10≤p≤1であるため、f2p≥f2p2f^{2}p \ge f^{2}p^{2}f2p≥f2p2である。したがって
σ12≤σ22
\sigma_{1}^{2} \le \sigma_{2}^{2}
σ12≤σ22