logo

마틴게일의 부등식들 📂확률론

마틴게일의 부등식들

정리

{(Xn,Fn)}\left\{ (X_{n} , \mathcal{F}_{n}) \right\}슈퍼 마틴게일이라고 하자.

  • [1]: 모든 λ>0\lambda > 0 에 대해 λP(maxnNXnλ)EX1(maxnNXn<λ)XNdPEX1+EXN a.s. \begin{align*} \lambda P \left( \max_{n \le N} X_{n} \ge \lambda \right) \le & E X_{1} - \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N} dP \\ \le & E X_{1} + E X_{N}^{-} \text{ a.s.} \end{align*}
  • [2]: 모든 λ>0\lambda > 0 에 대해 λP(minnNXnλ)(minnNXnλ)XNdPEXN a.s. \begin{align*} \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right) \le & - \int_{(\min_{n \le N} X_{n} \le - \lambda)} X_{N} dP \\ \le & E X_{N}^{-} \text{ a.s.} \end{align*}

{(Xn,Fn)}\left\{ (X_{n} , \mathcal{F}_{n}) \right\}서브 마틴게일이라고 하자.

  • [3]: 모든 λ>0\lambda > 0 에 대해 λP(maxnNXnλ)(maxnNXnλ)XNdPEXN a.s. \begin{align*} \lambda P \left( \max_{n \le N} X_{n} \ge \lambda \right) \le & \int_{(\max_{n \le N} X_{n} \ge \lambda)} X_{N} dP \\ \le & E \left| X_{N} \right| \text{ a.s.} \end{align*}
  • [4]: 모든 λ>0\lambda > 0 에 대해 λP(minnNXnλ)EXn+EX1 a.s. \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right) \le E X_{n}^{+} - E X_{1} \text{ a.s.}

{(Xn,Fn)}\left\{ (X_{n} , \mathcal{F}_{n}) \right\}마틴게일이라고 하자.

  • [5]: 모든 λ>0\lambda > 0 에 대해 P(maxnNXnλ)1λpEXNp a.s. P \left( \max_{n \le N} | X_{n} | \ge \lambda \right) \le {{1} \over {\lambda^{p}}} E |X_{N}|^{p} \text{ a.s.}

설명

여기서 소개된 부등식들은 [5]와 비슷하게 양변을 λ\lambda 로 나눠 확률의 바운드를 특정하는데에 유용하게 쓰일 수 있다. 특히 마틴게일은 슈퍼 마틴게일인 동시에 서브 마틴게일이므로 위의 모든 부등식을 사용할 수 있다.

  • [3]: 우리는 이미 마코프 부등식에 따라 P(maxnNXnλ)1λEmaxnNXn\displaystyle P(\max_{n \le N} X_{n} \ge \lambda ) \le {{ 1 } \over { \lambda }} E \left| \max_{n \le N} X_{n} \right| 을 알고 있으나, 서브 마틴게일이라는 조건―정보가 추가됨으로써 P(maxnNXnλ)1λEXN\displaystyle P(\max_{n \le N} X_{n} \ge \lambda ) \le {{ 1 } \over { \lambda }} E \left| X_{N} \right| 과 같이 NN 만을 보고 바운드를 더 줄인 것으로 볼 수 있다.
  • [4]: 서브 마틴게일-슈퍼 마틴게일이라는 조건의 대비와 함께 [1]과 짝을 이룬다고 볼 수 있다.
  • [5]: 이 수식은 일반화된 마코프 부등식 P(XpCp)1CpEXp\displaystyle P(|X|^{p} \ge C^{p}) \le {{ 1 } \over { C^{p} }} E | X |^{p} 와 마찬가지로 λ>1\lambda>1 이 주어져있을 때 pp 를 키울수록 확률의 바운드를 줄일 수 있으나, 그 이전에 XNX_{N}pp차 모멘트가 존재해야함을 명심해야한다.

증명

전략[1], [2]: 바운디드 NN 을 생각하므로 다음의 정리를 사용해 부등식에서 출발한다.

선택적 샘플링 정리: {(Xn,Fn)}\left\{ ( X_{n} , \mathcal{F}_{n} ) \right\}슈퍼 마틴게일이고 τ\tauσ\sigmaστ\sigma \le \tau 면서 Fn\mathcal{F}_{n} 에 대해 바운디드 정지 시간이라고하면 E(XτFσ)Xσ a.s. E \left( X_{\tau} | \mathcal{F}_{\sigma} \right) \le X_{\sigma} \text{ a.s.}

증명 과정에서 정의되는 TTXnX_{n} 이 처음으로 λ\lambda 를 넘어가는 순간으로써, 그 횟수가 NN 을 넘어가면 포기하고 그냥 NN 을 취하는 것으로 볼 수 있다. 이것을 잘 이해하는 것이 관건으로, 이를 기준으로 삼아 적분 영역을 쪼개는 트릭을 사용한다.

[1]

Part 1. 정지 시간 TT 의 정의

확률 변수 T:={inf{nN:Xnλ},n<NN,otherwise T:= \begin{cases} \inf \left\{ n \le N: X_{n} \ge \lambda \right\} &, n < N \\ N &, \text{otherwise} \end{cases} 를 정의하자. 이제 모든 kNk \in \mathbb{N} 에 대해 (T=k)Fk(T = k) \in \mathcal{F}_{k} 인지 확인해서 TT 가 정지 시간임을 보이자. 우선 k=n<Nk = n < N 에 대해서는 (T=n)=(X1<λ,,Xn1<λ,Xnλ)Fn (T = n) = \left( X_{1} < \lambda , \cdots , X_{n-1} < \lambda, X_{n} \ge \lambda \right) \in \mathcal{F}_{n} 이고, k=Nk = N 에 대해서는 k=N1k = N-1 번째까지만 Xk<λX_{k} < \lambda 인지 확인하면 되므로 (T=N)=(X1<λ,,Xn1<λ)FN1FN (T = N) = \left( X_{1} < \lambda , \cdots , X_{n-1} < \lambda \right) \in \mathcal{F}_{N-1} \subset \mathcal{F}_{N}


Part 2.

선택적 샘플링 정리에 따라 거의 확실히 E(XTF1)X1E \left( X_{T} | \mathcal{F}_{1} \right) \le X_{1} 이므로 ΩX1dPΩE(XTF1)dP=ΩXTdP=(maxnNXnλ)XTdP+(maxnNXn<λ)XTdP a.s. \begin{align*} \int_{\Omega} X_{1} dP \ge& \int_{\Omega} E \left( X_{T} | \mathcal{F}_{1} \right) dP \\ =& \int_{\Omega} X_{T} dP \\ =& \int_{(\max_{n \le N} X_{n} \ge \lambda)} X_{T} dP + \int_{(\max_{n \le N} X_{n} < \lambda)} X_{T} dP\text{ a.s.} \end{align*} 위의 전개에서 가장 마지막 줄은 적분 영역을 (maxnNXnλ)(\max_{n \le N} X_{n} \ge \lambda)(maxnNXn<λ)(\max_{n \le N} X_{n} < \lambda) 로 나눈 것이다. 그러면 TT 의 정의에 따라 (maxnNXnλ)(\max_{n \le N} X_{n} \ge \lambda) 상에서는 XTλX_{T} \ge \lambda 이고 (maxnNXn<λ)(\max_{n \le N} X_{n} < \lambda) 상에서는 XT=XNX_{T} = X_{N} 이므로 ΩX1dP(maxnNXnλ)XTdP+(maxnNXn<λ)XTdP=(maxnNXnλ)λdP+(maxnNXn<λ)XNdP=λP(maxnNXnλ)+(maxnNXn<λ)XNdP a.s. \begin{align*} \int_{\Omega} X_{1} dP \ge& \int_{(\max_{n \le N} X_{n} \ge \lambda)} X_{T} dP + \int_{(\max_{n \le N} X_{n} < \lambda)} X_{T} dP \\ =& \int_{(\max_{n \le N} X_{n} \ge \lambda)} \lambda dP + \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N} dP \\ =& \lambda P \left( \max_{n \le N} X_{n} \ge \lambda \right) + \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N} dP \text{ a.s.} \end{align*}


Part 3.

항을 정리하면 λP(maxnNXnλ)ΩX1dP(maxnNXn<λ)XNdP=EX1(maxnNXn<λ)XN+dP+(maxnNXn<λ)XNdP a.s. \begin{align*} \lambda P \left( \max_{n \le N} X_{n} \ge \lambda \right) \le & & \int_{\Omega} X_{1} dP - \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N} dP \\ =& E X_{1} - \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N}^{+} dP + \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N}^{-} dP \text{ a.s.} \end{align*} 여기서 XN+0X_{N}^{+} \ge 0 이므로 (maxnNXn<λ)XN+dP\displaystyle - \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N}^{+} dP 는 탈락시키고 (maxnNXn<λ)XNdPΩXNdP=EXN \int_{(\max_{n \le N} X_{n} < \lambda)} X_{N}^{-} dP \le \int_{\Omega} X_{N}^{-} dP = E X_{N}^{-} 이므로 λP(maxnNXnλ)EX1+EXN a.s. \lambda P \left( \max_{n \le N} X_{n} \ge \lambda \right) \le E X_{1} + E X_{N}^{-} \text{ a.s.}

[2]

Part 1. 정지 시간 TT 의 정의

확률 변수 T:={inf{nN:Xnλ},n<NN,otherwise T:= \begin{cases} \inf \left\{ n \le N: X_{n} \le - \lambda \right\} &, n < N \\ N &, \text{otherwise} \end{cases} 를 정의하자. 이제 모든 kNk \in \mathbb{N} 에 대해 (T=k)Fk(T = k) \in \mathcal{F}_{k} 인지 확인해서 TT 가 정지 시간임을 보이자. 우선 k=n<Nk = n < N 에 대해서는 (T=n)=(X1>λ,,Xn1>λ,Xnλ)Fn (T = n) = \left( X_{1} > - \lambda , \cdots , X_{n-1} > - \lambda, X_{n} \le - \lambda \right) \in \mathcal{F}_{n} 이고, k=Nk = N 에 대해서는 k=N1k = N-1 번째까지만 Xk>λX_{k} > - \lambda 인지 확인하면 되므로 (T=N)=(X1>λ,,Xn1>λ)FN1FN (T = N) = \left( X_{1} > - \lambda , \cdots , X_{n-1} > - \lambda \right) \in \mathcal{F}_{N-1} \subset \mathcal{F}_{N} 이고, TNT \le N 이다.


Part 2.

조건부 기대값의 성질: 모든 시그마 필드 G\mathcal{G} 에 대해 E[E(XG)]=E(X)E \left[ E ( X | \mathcal{G} ) \right] = E(X)

선택적 샘플링 정리에 따라 거의 확실히 E(XNFT)XnE \left( X_{N} | \mathcal{F}_{T} \right) \le X_{n} 이고, 양변에 기대값 EE 를 취하면 증명 [1]의 Part 2.와 비슷하게 EXNEXT=ΩXTdP=(minnNXnλ)XTdP+(minnNXn>λ)XTdPλP(minnNXnλ)+(minnNXn>λ)XNdP \begin{align*} E X_{N} \le & E X_{T} \\ =& \int_{\Omega} X_{T} dP \\ =& \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{T} dP + \int_{(\min_{n \le N} X_{n} > - \lambda )} X_{T} dP \\ \le & - \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right)+ \int_{(\min_{n \le N} X_{n} > - \lambda )} X_{N} dP \end{align*} 그런데 EXN=(minnNXnλ)XNdP+(minnNXn>λ)XNdP\displaystyle E X_{N} = \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N} dP + \int_{(\min_{n \le N} X_{n} > - \lambda )} X_{N} dP 이므로 (minnNXnλ)XNdP+(minnNXn>λ)XNdPλP(minnNXnλ)+(minnNXn>λ)XNdP \begin{align*} & \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N} dP + \int_{(\min_{n \le N} X_{n} > - \lambda )} X_{N} dP \\ \le & - \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right)+ \int_{(\min_{n \le N} X_{n} > - \lambda )} X_{N} dP \end{align*} 양변에서 (minnNXn>λ)XNdP\displaystyle \int_{(\min_{n \le N} X_{n} > - \lambda )} X_{N} dP 을 소거시키면 (minnNXnλ)XNdPλP(minnNXnλ) \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N} dP \le - \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right)


Part 3.

부호를 반전시키면 λP(minnNXnλ)(minnNXnλ)XNdP=(minnNXnλ)XN+dP+(minnNXnλ)XNdP \begin{align*} \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right) \le & - \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N} dP \\ =& - \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N}^{+} dP + \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N}^{-} dP \end{align*} 역시 증명 [1]의 Part 3과 비슷하게 XN+0X_{N}^{+} \ge 0 이므로 (minnNXnλ)XN+dP\displaystyle - \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N}^{+} dP 는 탈락시키고 (minnNXnλ)XNdPΩXNdP=EXN \int_{(\min_{n \le N} X_{n} \le - \lambda )} X_{N}^{-} dP \le \int_{\Omega} X_{N}^{-} dP = E X_{N}^{-} 이므로 λP(minnNXnλ)EXN a.s. \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right) \le E X_{N}^{-} \text{ a.s.}

[3]

λP(maxnNXnλ)=λP(maxnNXnλ)=λP(minnN(Xn)λ) \begin{align*} \lambda P \left( \max_{n \le N} X_{n} \ge \lambda \right) =& \lambda P \left( - \max_{n \le N} X_{n} \le - \lambda \right) \\ =& \lambda P \left( \min_{n \le N} (-X_{n}) \le - \lambda \right) \end{align*} {(Xn,Fn)}\left\{ \left( -X_{n} , \mathcal{F}_{n} \right) \right\} 은 슈퍼 마틴게일이므로 [2]에 따라 λP(minnN(Xn)λ)(minnNXnλ)(XN)dP(maxnNXnλ)XNdP(XN0)XNdPEXN+EXN a.s. \begin{align*} \lambda P \left( \min_{n \le N} (-X_{n}) \le - \lambda \right) \le & - \int_{(\min_{n \le N} X_{n} \le - \lambda)} (-X_{N}) dP \\ \le & \int_{(\max_{n \le N} X_{n} \ge \lambda)} X_{N} dP \\ \le & \int_{(X_{N} \ge 0)} X_{N} dP \\ \le & E X_{N}^{+} \\ \le & E \left| X_{N} \right| \text{ a.s.} \end{align*}

[4]

{(Xn,Fn)}\left\{ \left( -X_{n} , \mathcal{F}_{n} \right) \right\} 은 슈퍼 마틴게일이므로 [1]에 따라 λP(minnNXnλ)=λP(maxnN(Xn)λ)E(X1)+E(XN)=E(XN)EX1=E(XN++XN)EX1=E(XN)+EX1 a.s. \begin{align*} \lambda P \left( \min_{n \le N} X_{n} \le - \lambda \right) =& \lambda P \left( \max_{n \le N} \left( -X_{n} \right) \ge \lambda \right) \\ \le & E \left( -X_{1} \right) + E \left( -X_{N} \right)^{-} \\ =& E \left( -X_{N} \right)^{-} - E X_{1} \\ =& E \left( -X_{N}^{+} + X_{N}^{-} \right)^{-} - E X_{1} \\ =& E \left( X_{N} \right)^{+} - E X_{1} \text{ a.s.} \end{align*}

[5]

조건부 옌센 부등식따름 정리에 따라 {(Xnp,Fn)}\left\{ \left( |X_{n}|^{p} , \mathcal{F}_{n} \right) \right\} 는 서브 마틴게일이므로 [3]에 따라 λpP(maxnNXnpλp)EXNp a.s.    P(maxnNXnpλp)1λpEXNp a.s.    P(maxnNXnλ)1λpEXNp a.s. \begin{align*} & \lambda^{p} P \left( \max_{n \le N} | X_{n} |^{p} \ge \lambda^{p} \right) \le E \left| X_{N} \right|^{p} \text{ a.s.} \\ \iff & P \left( \max_{n \le N} | X_{n} |^{p} \ge \lambda^{p} \right) \le {{ 1 } \over { \lambda^{p} }} E \left| X_{N} \right|^{p} \text{ a.s.} \\ \iff & P \left( \max_{n \le N} | X_{n} | \ge \lambda \right) \le {{ 1 } \over { \lambda^{p} }} E \left| X_{N} \right|^{p} \text{ a.s.} \end{align*}