logo

マルチンゲールの不等式たち 📂確率論

マルチンゲールの不等式たち

定理

{(Xn,Fn)}\left\{ (X_{n} , \mathcal{F}_{n}) \right\}スーパーマルチンゲール とする。

  • [1]: 全ての λ>0\lambda > 0 に対して λP(maxnNXnλ)EX1(maxnNXn<λ)XNdPEX1+EXN a.s. \begin{align*} \lambda P \left( \max_{n \le N} X_{n} \ge \lambda \right) \le & E X_{1} - \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N} dP \\ \le & E X_{1} + E X_{N}^{-} \text{ a.s.} \end{align*}
  • [2]: 全ての λ>0\lambda > 0 に対して λP(minnNXnλ)(minnNXnλ)XNdPEXN a.s. \begin{align*} \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right) \le & - \int_{(\min_{n \le N} X_{n} \le - \lambda)} X_{N} dP \\ \le & E X_{N}^{-} \text{ a.s.} \end{align*}

{(Xn,Fn)}\left\{ (X_{n} , \mathcal{F}_{n}) \right\}サブマルチンゲール とする。

  • [3]: 全ての λ>0\lambda > 0 に対して λP(maxnNXnλ)(maxnNXnλ)XNdPEXN a.s. \begin{align*} \lambda P \left( \max_{n \le N} X_{n} \ge \lambda \right) \le & \int_{(\max_{n \le N} X_{n} \ge \lambda)} X_{N} dP \\ \le & E \left| X_{N} \right| \text{ a.s.} \end{align*}
  • [4]: 全ての λ>0\lambda > 0 に対して λP(minnNXnλ)EXn+EX1 a.s. \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right) \le E X_{n}^{+} - E X_{1} \text{ a.s.}

{(Xn,Fn)}\left\{ (X_{n} , \mathcal{F}_{n}) \right\}マルチンゲール とする。

  • [5]: 全ての λ>0\lambda > 0 に対して P(maxnNXnλ)1λpEXNp a.s. P \left( \max_{n \le N} | X_{n} | \ge \lambda \right) \le {{1} \over {\lambda^{p}}} E |X_{N}|^{p} \text{ a.s.}

説明

ここで紹介された不等式はλ\lambda で両辺を割って確率のバウンドを指定するのに同様に使うことができる。特に、マルチンゲールはスーパーマルチンゲールであり、サブマルチンゲールでもあるため、上記の全ての不等式を利用することができる。

  • [3]: マルコフ不等式 により P(maxnNXnλ)1λEmaxnNXn\displaystyle P(\max_{n \le N} X_{n} \ge \lambda ) \le {{ 1 } \over { \lambda }} E \left| \max_{n \le N} X_{n} \right| は既に知っているが、サブマルチンゲールという条件―情報が追加されたことにより、NN だけを見てバウンドをより減らしたものと見ることができる、P(maxnNXnλ)1λEXN\displaystyle P(\max_{n \le N} X_{n} \ge \lambda ) \le {{ 1 } \over { \lambda }} E \left| X_{N} \right| のように。
  • [4]: サブマルチンゲール―スーパーマルチンゲールという条件の対比とともに [1] とは対をなすと見ることができる。
  • [5]: この式は一般化された マルコフ不等式 P(XpCp)1CpEXp\displaystyle P(|X|^{p} \ge C^{p}) \le {{ 1 } \over { C^{p} }} E | X |^{p} と同様に、λ>1\lambda>1 が与えられた場合 pp を増やすほど確率のバウンドを減らすことができるが、その前に XNX_{N}pp 次モーメントが存在する必要があることを忘れてはいけない。

証明

戦略 [1], [2]: バウンドされた NN を考えて以下の定理から不等式で出発する。

任意サンプリング定理: {(Xn,Fn)}\left\{ ( X_{n} , \mathcal{F}_{n} ) \right\}スーパーマルチンゲール であり、τ\tauσ\sigmaστ\sigma \le \tau であり Fn\mathcal{F}_{n} に対してバウンドされた停止時間であれば E(XτFσ)Xσ a.s. E \left( X_{\tau} | \mathcal{F}_{\sigma} \right) \le X_{\sigma} \text{ a.s.}

証明過程で定義されるTTは、XnX_{n}が初めてλ\lambdaを超える瞬間であり、その回数がNNを超える場合は諦めてただちにNNを取ると考える。これを理解することが肝心で、これを基準にして積分領域を分割するトリックを使う

[1]

パート 1. 停止時間 TT の定義

確率変数 T:={inf{nN:Xnλ},n<NN,otherwise T:= \begin{cases} \inf \left\{ n \le N: X_{n} \ge \lambda \right\} &, n < N \\ N &, \text{otherwise} \end{cases} を定義する。今、全ての kNk \in \mathbb{N}に対して (T=k)Fk(T = k) \in \mathcal{F}_{k} であるか確認してTTが停止時間であることを示そう。まず k=n<Nk = n < N に対しては (T=n)=(X1<λ,,Xn1<λ,Xnλ)Fn (T = n) = \left( X_{1} < \lambda , \cdots , X_{n-1} < \lambda, X_{n} \ge \lambda \right) \in \mathcal{F}_{n} であり、k=Nk = N に対しては k=N1k = N-1番目まで Xk<λX_{k} < \lambda であるか確認すればいいので (T=N)=(X1<λ,,Xn1<λ)FN1FN (T = N) = \left( X_{1} < \lambda , \cdots , X_{n-1} < \lambda \right) \in \mathcal{F}_{N-1} \subset \mathcal{F}_{N}


パート 2.

任意サンプリング定理によれば、ほぼ確実に E(XTF1)X1E \left( X_{T} | \mathcal{F}_{1} \right) \le X_{1} であるため ΩX1dPΩE(XTF1)dP=ΩXTdP=(maxnNXnλ)XTdP+(maxnNXn<λ)XTdP a.s. \begin{align*} \int_{\Omega} X_{1} dP \ge& \int_{\Omega} E \left( X_{T} | \mathcal{F}_{1} \right) dP \\ =& \int_{\Omega} X_{T} dP \\ =& \int_{(\max_{n \le N} X_{n} \ge \lambda)} X_{T} dP + \int_{(\max_{n \le N} X_{n} < \lambda)} X_{T} dP\text{ a.s.} \end{align*} 上記の展開から最後の行は積分領域を(maxnNXnλ)(\max_{n \le N} X_{n} \ge \lambda)(maxnNXn<λ)(\max_{n \le N} X_{n} < \lambda) に分けたものである。するとTT の定義により (maxnNXnλ)(\max_{n \le N} X_{n} \ge \lambda) 上ではXTλX_{T} \ge \lambda であり (maxnNXn<λ)(\max_{n \le N} X_{n} < \lambda) 上ではXT=XNX_{T} = X_{N} であるため ΩX1dP(maxnNXnλ)XTdP+(maxnNXn<λ)XTdP=(maxnNXnλ)λdP+(maxnNXn<λ)XNdP=λP(maxnNXnλ)+(maxnNXn<λ)XNdP a.s. \begin{align*} \int_{\Omega} X_{1} dP \ge& \int_{(\max_{n \le N} X_{n} \ge \lambda)} X_{T} dP + \int_{(\max_{n \le N} X_{n} < \lambda)} X_{T} dP \\ =& \int_{(\max_{n \le N} X_{n} \ge \lambda)} \lambda dP + \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N} dP \\ =& \lambda P \left( \max_{n \le N} X_{n} \ge \lambda \right) + \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N} dP \text{ a.s.} \end{align*}


パート 3.

項を整理すると λP(maxnNXnλ)ΩX1dP(maxnNXn<λ)XNdP=EX1(maxnNXn<λ)XN+dP+(maxnNXn<λ)XNdP a.s. \begin{align*} \lambda P \left( \max_{n \le N} X_{n} \ge \lambda \right) \le & & \int_{\Omega} X_{1} dP - \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N} dP \\ =& E X_{1} - \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N}^{+} dP + \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N}^{-} dP \text{ a.s.} \end{align*} ここでXN+0X_{N}^{+} \ge 0 であるため(maxnNXn<λ)XN+dP\displaystyle - \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N}^{+} dP を除外して (maxnNXn<λ)XNdPΩXNdP=EXN \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N}^{-} dP \le \int_{\Omega} X_{N}^{-} dP = E X_{N}^{-} したがって λP(maxnNXnλ)EX1+EXN a.s. \lambda P \left( \max_{n \le N} X_{n} \ge \lambda \right) \le E X_{1} + E X_{N}^{-} \text{ a.s.}

[2]

パート 1. 停止時間 TT の定義

確率変数 T:={inf{nN:Xnλ},n<NN,otherwise T:= \begin{cases} \inf \left\{ n \le N: X_{n} \le - \lambda \right\} &, n < N \\ N &, \text{otherwise} \end{cases} を定義する。今、全ての kNk \in \mathbb{N}に対して (T=k)Fk(T = k) \in \mathcal{F}_{k} であるか確認してTTが停止時間であることを示そう。まず k=n<Nk = n < N に対しては (T=n)=(X1>λ,,Xn1>λ,Xnλ)Fn (T = n) = \left( X_{1} > - \lambda , \cdots , X_{n-1} > - \lambda, X_{n} \le - \lambda \right) \in \mathcal{F}_{n} であり、k=Nk = N に対しては k=N1k = N-1番目まで Xk>λX_{k} > - \lambda であるか確認すればいいので (T=N)=(X1>λ,,Xn1>λ)FN1FN (T = N) = \left( X_{1} > - \lambda , \cdots , X_{n-1} > - \lambda \right) \in \mathcal{F}_{N-1} \subset \mathcal{F}_{N} であり、TNT \le N が成り立つ。


パート 2.

条件付き期待値の性質: すべてのシグマ場 G\mathcal{G} に対して、E[E(XG)]=E(X)E \left[ E ( X | \mathcal{G} ) \right] = E(X)

任意サンプリング定理によれば、ほぼ確実に E(XNFT)XnE \left( X_{N} | \mathcal{F}_{T} \right) \le X_{n} であり、両辺に期待値 EE を取ることで証明 [1] のパート 2. と同様に EXNEXT=ΩXTdP=(minnNXnλ)XTdP+(minnNXn>λ)XTdPλP(minnNXnλ)+(minnNXn>λ)XNdP \begin{align*} E X_{N} \le & E X_{T} \\ =& \int_{\Omega} X_{T} dP \\ =& \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{T} dP + \int_{(\min_{n \le N} X_{n} > - \lambda )} X_{T} dP \\ \le & - \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right)+ \int_{(\min_{n \le N} X_{n} > - \lambda )} X_{N} dP \end{align*} しかしEXN=(minnNXnλ)XNdP+(minnNXn>λ)XNdP\displaystyle E X_{N} = \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N} dP + \int_{(\min_{n \le N} X_{n} > - \lambda )} X_{N} dP なので (minnNXnλ)XNdP+(minnNXn>λ)XNdPλP(minnNXnλ)+(minnNXn>λ)XNdP \begin{align*} & \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N} dP + \int_{(\min_{n \le N} X_{n} > - \lambda )} X_{N} dP \\ \le & - \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right)+ \int_{(\min_{n \le N} X_{n} > - \lambda )} X_{N} dP \end{align*} 両辺から (minnNXn>λ)XNdP\displaystyle \int_{(\min_{n \le N} X_{n} > - \lambda )} X_{N} dP を取り除けば (minnNXnλ)XNdPλP(minnNXnλ) \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N} dP \le - \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right)


パート 3.

符号を反転させると λP(minnNXnλ)(minnNXnλ)XNdP=(minnNXnλ)XN+dP+(minnNXnλ)XNdP \begin{align*} \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right) \le & - \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N} dP \\ =& - \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N}^{+} dP + \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N}^{-} dP \end{align*} 証明 [1] のパート 3と同様に XN+0X_{N}^{+} \ge 0 であるため(minnNXnλ)XN+dP\displaystyle - \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N}^{+} dP を除外して (minnNXnλ)XNdPΩXNdP=EXN \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N}^{-} dP \le \int_{\Omega} X_{N}^{-} dP = E X_{N}^{-} したがって λP(minnNXnλ)EXN a.s. \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right) \le E X_{N}^{-} \text{ a.s.}

[3]

λP(maxnNXnλ)=λP(maxnNXnλ)=λP(minnN(Xn)λ) \begin{align*} \lambda P \left( \max_{n \le N} X_{n} \ge \lambda \right) =& \lambda P \left( - \max_{n \le N} X_{n} \le - \lambda \right) \\ =& \lambda P \left( \min_{n \le N} (-X_{n}) \le - \lambda \right) \end{align*} {(Xn,Fn)}\left\{ \left( -X_{n} , \mathcal{F}_{n} \right) \right\} はスーパーマルチンゲールであるため、[2] に従って λP(minnN(Xn)λ)(minnNXnλ)(XN)dP(maxnNXnλ)XNdP(XN0)XNdPEXN+EXN a.s. \begin{align*} \lambda P \left( \min_{n \le N} (-X_{n}) \le - \lambda \right) \le & - \int_{(\min_{n \le N} X_{n} \le - \lambda)} (-X_{N}) dP \\ \le & \int_{(\max_{n \le N} X_{n} \ge \lambda)} X_{N} dP \\ \le & \int_{(X_{N} \ge 0)} X_{N} dP \\ \le & E X_{N}^{+} \\ \le & E \left| X_{N} \right| \text{ a.s.} \end{align*}

[4]

{(Xn,Fn)}\left\{ \left( -X_{n} , \mathcal{F}_{n} \right) \right\} はスーパーマルチンゲールであるため、[1] に従って λP(minnNXnλ)=λP(maxnN(Xn)λ)E(X1)+E(XN)=E(XN)EX1=E(XN++XN)EX1=E(XN)+EX1 a.s. \begin{align*} \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right) =& \lambda P \left( \max_{n \le N} \left( -X_{n} \right) \ge \lambda \right) \\ \le & E \left( -X_{1} \right) + E \left( -X_{N} \right)^{-} \\ =& E \left( -X_{N} \right)^{-} - E X_{1} \\ =& E \left( -X_{N}^{+} + X_{N}^{-} \right)^{-} - E X_{1} \\ =& E \left( X_{N} \right)^{+} - E X_{1} \text{ a.s.} \end{align*}

[5]

条件付きイェンセン不等式帰結 に従って、{(Xnp,Fn)}\left\{ \left( |X_{n}|^{p} , \mathcal{F}_{n} \right) \right\} はサブマルチンゲールであるため、[3] に従って λpP(maxnNXnpλp)EXNp a.s.    P(maxnNXnpλp)1λpEXNp a.s.    P(maxnNXnλ)1λpEXNp a.s. \begin{align*} & \lambda^{p} P \left( \max_{n \le N} | X_{n} |^{p} \ge \lambda^{p} \right) \le E \left| X_{N} \right|^{p} \text{ a.s.} \\ \iff & P \left( \max_{n \le N} | X_{n} |^{p} \ge \lambda^{p} \right) \le {{ 1 } \over { \lambda^{p} }} E \left| X_{N} \right|^{p} \text{ a.s.} \\ \iff & P \left( \max_{n \le N} | X_{n} | \ge \lambda \right) \le {{ 1 } \over { \lambda^{p} }} E \left| X_{N} \right|^{p} \text{ a.s.} \end{align*}