logo

조건부 기대값의 성질들 📂확률론

조건부 기대값의 성질들

정리

확률 공간 (Ω,F,P)( \Omega , \mathcal{F} , P) 이 주어져 있다고 하자.

  • [1] 측도론에서의 정리: 가측 함수 ff, ggF\mathcal{F}-가측이면 g=h(f)g = h (f) 를 만족하는 보렐 함수 h:RRh : \mathbb{R} \to \mathbb{R} 가 존재한다.
  • [2] 확률론에서의 응용: 확률 변수 XX, YYσ(X)\sigma (X)-가측이면 E(YX)=h(X)E(Y | X) = h(X) 를 만족하는 보렐 함수 h:RRh : \mathbb{R} \to \mathbb{R} 가 존재한다.
  • [3]: XXF\mathcal{F}-가측이면 E(XF)=X a.s.E(X|\mathcal{F}) =X \text{ a.s.}
  • [4]: 시그마 필드 G={,Ω}\mathcal{G} = \left\{ \emptyset , \Omega \right\} 에 대해 E(XG)=E(X) a.s.E(X|\mathcal{G}) = E(X) \text{ a.s.}
  • [5]: 상수 cc 와 모든 시그마 필드 G\mathcal{G} 에 대해 E(cF)=c a.s.E(c|\mathcal{F}) = c \text{ a.s.}
  • [6]: 상수 cc 에 대해 E(cXG)=cE(XG) a.s.E(cX | \mathcal{G}) = c E(X | \mathcal{G}) \text{ a.s.}
  • [7]: E(X+YG)=E(XG)+E(YG) a.s.E(X+Y | \mathcal{G}) = E(X | \mathcal{G}) + E(Y| \mathcal{G}) \text{ a.s.}
  • [8]: X0 a.s.X \ge 0 \text{ a.s.} 이면 E(XG)0 a.s.E(X | \mathcal{G}) \ge 0 \text{ a.s.}
  • [9]: XY a.s.X \ge Y \text{ a.s.} 이면 E(XG)E(YG) a.s.E(X | \mathcal{G}) \ge E(Y | \mathcal{G}) \text{ a.s.}
  • [10]: E(XG)E(XG) a.s.\left| E( X | \mathcal{G} ) \right| \le E ( | X | | \mathcal{G} ) \text{ a.s.}
  • [11]: 모든 시그마 필드 G\mathcal{G} 에 대해 E[E(XG)]=E(X)E \left[ E ( X | \mathcal{G} ) \right] = E(X)

  • σ(X)={X1(B):BB(R)}\sigma (X) = \left\{ X^{-1} (B) : B \in \mathcal{B}(\mathbb{R}) \right\} 는 확률 변수 XX 로써 생성되는 Ω\Omega 의 가장 작은 시그마 필드를 나타낸다. 이에 대해 E(Yσ(X))=E(YX)E(Y|\sigma (X)) = E(Y|X) 와 같이 표기할 수 있다.
  • ZZF\mathcal{F}-가측 함수라는 것은 모든 보렐 셋 BB(R)B \in \mathcal{B}(\mathbb{R}) 에 대해 Z1(B)FZ^{-1} (B) \in \mathcal{F} 라는 의미다.
  • 보렐 함수란 모든 보렐 셋 BB(R)B \in \mathcal{B}(\mathbb{R}) 에 대해 f1(B)f^{-1} (B) 도 보렐 셋인 함수 f:RRf : \mathbb{R} \to \mathbb{R} 을 말한다.

설명

  • [1],[2]: 위의 두 정리는 XX 에 대한 YY조건부 기댓값XX 에 종속된 어떤 함수로 나타난다는 것을 말해준다. 특히 XX 의 값이 주어졌으면 E(YX=a)=h(a)E(Y | X = a) = h(a) 와 같이 나타낸다. [2]는 [1]의 따름정리로써, 이에 의해 다음과 같이 기초적인 확률론에서도 일상적으로 사용하는 기대값의 성질들이 거의 확실히 보장된다.

선형성

  • [5]~[7]: E(aX+bG)=aE(XG)+bE(aX + b | \mathcal{G}) = aE(X | \mathcal{G}) + b: 기대값의 리니어러티linearity는 조건부라도 유지된다.

시그마필드는 정보다

  • [3] E(XF)=XE(X | \mathcal{F}) = X: 수식의 의미를 생각해 보았을 때, 확률 변수 XXF\mathcal{F}-가측이라는 것은 시그마 필드 F\mathcal{F}XX 의 모든 정보를 알고 있다는 것이다. 반대로 생각해보면 그러니까 가측이라고 부르는 것이다. 그러므로 E(XF)E(X|\mathcal{F}) 는 어떤 방해도 없이 XX 를 그대로 파악할 수 있다. F\mathcal{F} 상에서 모든 정보가 알려진 XX 는 굳이 EE 로 계산할 필요가 없다. 다음의 예시를 생각해보자:
    • 6면 주사위를 던져 눈 하나당 1달러를 받는 게임을 할 때 받는 돈의 기대값은 3.5달러다. 이걸 계산하는 이유는 실제로 주사위의 면이 뭐가 나올지 모르기 때문이다. 하지만 주사위를 던지기 전에 내 머리속에 시그마 필드 F\mathcal{F} 가 정확히 주어진다면 주사위 눈 XX 를 정확하게 측정할 수 있으므로 정확히 몇 달러를 받을 것인지 알 수가 있다. 게임을 할 때마다 3.5달러를 지불해야할지라도, 이길 게임은 하고 질 게임은 안 하면 그만이다. 이러한 센스에서 난수 해킹은 시그마 필드(난수표)를 훔쳐 원래 랜덤이었어야할 것들을 확정적으로 만들어버리는 공격 기법에 해당한다. 이게 성공하면 은행 보안카드나 OTP처럼 같이 난수에 의존하는 암호체계가 뚫린다.

한편 σ(X)\sigma (X)XX 의 모든 정보를 알고 있으면서 가장 작은 시그마필드로 정의되었으므로 당연히 E(Xσ(X))=XE(X| \sigma (X)) = X 다. 이는 위에서 소개된 노테이션에 따라 E(XX)=XE(X|X) = X 와 같다.

  • [4] E(XG)=E(X)E(X|\mathcal{G}) = E(X): 수식의 의미를 생각해 보았을 때, 트리비얼 시그마 필드 G={,Ω}\mathcal{G} = \left\{ \emptyset , \Omega \right\}XX 에 대해 어떤 정보도 주지 않기 때문에 막막하게 확률 공간 Ω\Omega 전체를 훑어서 ΩXdP\displaystyle \int_{\Omega} X d P 를 계산할 수 밖에 없다.
  • [10] E(XG)E(XG)\left| E( X | \mathcal{G} ) \right| \le E ( | X | | \mathcal{G} ): 절대값의 성질에 따라 E(XG)E(XG)E(XG) - E ( | X | | \mathcal{G} ) \le E( X | \mathcal{G} ) \le E ( | X | | \mathcal{G} )
  • [11] E[E(XG)]=E(X)E \left[ E ( X | \mathcal{G} ) \right] = E(X): 확률론의 각종 증명에서 유용하게 쓰이는 등식으로써, 주로 E(X)E(X) 는 바로 계산하기 어렵지만 어떤 G\mathcal{G} 가 주어진다면 E(XG)E(X|\mathcal{G}) 가 계산하기 편해질 때 트릭으로써 사용한다.

증명

[1]

h:RRh : \mathbb{R} \to \mathbb{R}zRz \in \mathbb{R} 에 대해 h(z):=(gf1({z}))h(z) := \left( g \circ f^{-1} ( \left\{ z \right\} ) \right) 과 같이 정의하자.

{z}B(R)\left\{ z \right\} \in \mathcal{B}(\mathbb{R}) 이면 ffF\mathcal{F}-가측이므로 f1({z})Ff^{-1}(\left\{ z \right\}) \in \mathcal{F} 고, gg 역시 F\mathcal{F}-가측이므로 hh 는 잘 정의되며, g(ω)=(hf)(ω)g (\omega) = ( h \circ f ) ( \omega ) 를 만족한다.

모든 보렐 셋 BB(R)B \in \mathcal{B}(\mathbb{R}) 에 대해 h1(B)=(fg1)(B)=f(g1(B)) h^{-1}(B) = (f \circ g^{-1})(B) = f \left( g^{-1} (B) \right) 를 생각해보면 g1(B)Fg^{-1} (B) \in \mathcal{F} 이므로 f(g1(B))B(R)f(g^{-1} (B) ) \in \mathcal{B}(\mathbb{R}) 이다. 모든 BB(R)B \in \mathcal{B}(\mathbb{R}) 에 대해 h1(B)B(R)h^{-1}(B) \in \mathcal{B}(\mathbb{R}) 이므로, hh 는 보렐 함수다.

[2]

E(YX)=E(Yσ(X))E ( Y | X ) = E ( Y | \sigma (X) )조건부 기대값의 정의에 따라 σ(X)\sigma (X)-가측인 확률 변수고, XX 역시 σ(X)\sigma (X) 의 정의에 따라 당연히 σ(X)\sigma (X)-가측 확률변수다. 그러면 [1]에 의해 F=σ(X)\mathcal{F} = \sigma (X) 라 두고 f=Xg=E(YX) f = X \\ g = E ( Y | X ) 라 하면 E(YX)=h(X)E(Y|X) = h(X) 를 만족하는 보렐 함수 h:RRh : \mathbb{R} \to \mathbb{R} 가 존재한다.

전략 [3]~[7]: 적분폼으로 바꿔서 전개해서 정적분이 같음을 보인 후 다음의 정리를 적용한다. 원래 별다른 이름이 없으나, 이 포스트에서만 르벡 적분 렘마라고 명명하겠다.

르벡 적분의 성질 AF,Afdm=0    f=0 a.e. \forall A \in \mathcal{F}, \int_{A} f dm = 0 \iff f = 0 \text{ a.e.}

[3]

모든 AFA \in \mathcal{F} 에 대해 AXdP=AXdP\displaystyle \int_{A} X dP = \int_{A} X dP 를 만족하는 XX 가 유일하게 존재하므로 조건부 기대값의 정의에 따라 X=E(XF)X = E(X| \mathcal{F})F\mathcal{F} 에 대한 XX 의 조건부 기댓값이다. 따라서 모든 AFA \in \mathcal{F} 에 대해 AE(XF)dP=AXdP \int_{A} E(X |\mathcal{F}) dP = \int_{A} X dP 이고, 르벡 적분 렘마에 의해 X=E(XF) a.s.X = E(X |\mathcal{F}) \text{ a.s.}

[4]

조건부 기댓값의 정의에 따라 AE(XG)dP=AXdP\displaystyle \int_{A} E(X |\mathcal{G}) dP = \int_{A} X dP 다.

Case 1. A=A = \emptyset

0=E(XG)dP=XdP=0 0 = \int_{\emptyset} E(X |\mathcal{G}) dP = \int_{\emptyset} X dP = 0


Case 2. A=ΩA = \Omega

ΩE(XG)dP=ΩXdP=E(X)=E(X)P(Ω)=E(X)Ω1dP=ΩE(X)dP \int_{\Omega} E(X |\mathcal{G}) dP = \int_{\Omega} X dP = E(X) = E(X) P(\Omega) = E(X) \int_{\Omega} 1 dP = \int_{\Omega} E(X) dP


따라서 어떤 경우든, 르벡 적분 렘마에 의해 X=E(XG) a.s.X = E(X |\mathcal{G}) \text{ a.s.}

[5]

cGc \in \mathcal{G} 이고 E(cG)GE(c | \mathcal{G}) \in \mathcal{G} 이므로 조건부 기댓값의 정의에 따라 모든 AGA \in \mathcal{G} 에 대해 AE(cG)dP=AXdP \int_{A} E(c |\mathcal{G}) dP = \int_{A} X dP 고, 따라서 르벡 적분 렘마에 의해 c=E(cG) a.s.c = E(c | \mathcal{G}) \text{ a.s.}

[6]

조건부 기댓값의 정의와 르벡 적분의 리니어러티에 의해 모든 AGA \in \mathcal{G} 에 대해 AE(cXG)dP=AcXdP=cAXdP=cAE(XG)dP=AcE(XG)dP \begin{align*} \int_{A} E( cX |\mathcal{G}) dP =& \int_{A} cX dP \\ =& c \int_{A} X dP \\ =& c \int_{A} E(X|\mathcal{G}) dP \\ =& \int_{A} c E(X|\mathcal{G}) dP \end{align*} 이고, 르벡 적분 렘마에 의해 E(cXG)=cE(XG)dP a.s.E( cX |\mathcal{G}) = c E(X|\mathcal{G}) dP \text{ a.s.}

[7]

조건부 기댓값의 정의와 르벡 적분의 리니어러티에 의해 모든 AGA \in \mathcal{G} 에 대해 AE(X+YG)dP=A(X+Y)dP=AXdP+AYdP=AE(XG)dP+AE(YG)dP=A[E(XG)+E(YG)]dP \begin{align*} \int_{A} E( X+Y |\mathcal{G}) dP =& \int_{A} (X+Y) dP \\ =& \int_{A} X dP +\int_{A} Y dP \\ =& \int_{A} E(X|\mathcal{G}) dP + \int_{A} E(Y|\mathcal{G}) dP \\ =& \int_{A} \left[ E(X|\mathcal{G}) + E(Y|\mathcal{G}) \right] dP \end{align*} 이고, 르벡 적분 렘마에 의해 E(X+YG)=E(XG)+E(YG)dP a.s. E( X +Y |\mathcal{G}) = E(X|\mathcal{G}) + E(Y|\mathcal{G}) dP \text{ a.s.}

[8]

E(XG)<0E( X |\mathcal{G}) < 0 이라고 가정해보면 AE(XG)dP=AXdPA0dP=0 \begin{align*} \int_{A} E( X |\mathcal{G}) dP =& \int_{A} X dP \\ \ge& \int_{A} 0 dP \\ =& 0 \end{align*} 이므로 모순이다. 따라서 E(XG)0 a.s.E( X |\mathcal{G}) \ge 0 \text{ a.s.} 이어야한다.

[9]

Z:=XY0Z := X - Y \ge 0 라고 하면 [8] 에 의해 E(XYG)0 E(X-Y | \mathcal{G}) \ge 0 이고, 조건부 기대값의 리니어러티에 의해 E(XG)E(YG)0 a.s. E(X| \mathcal{G}) - E(Y | \mathcal{G}) \ge 0 \text{ a.s.}

[10]

Part 1. X0X \ge 0

X0X \ge 0 이면 X=X|X| = X 이므로 E(XG)=E(XG) E( |X| |\mathcal{G}) = E(X|\mathcal{G})

[8]에 따라 E(XG)0E(X|\mathcal{G}) \ge 0 이므로 마찬가지로 E(XG)=E(XG)E(X|\mathcal{G}) = \left| E(X|\mathcal{G}) \right| 가 되어 E(XG)=E(XG)=E(XG) E( |X| |\mathcal{G}) = E(X|\mathcal{G}) = \left| E(X|\mathcal{G}) \right|


Part 2. X<0X < 0

[6]에 의해 E(XG)=E(XG)=E(XG)=E(XG) E( |X| |\mathcal{G}) = E( -X |\mathcal{G}) = - E(X |\mathcal{G}) = \left| E(X|\mathcal{G}) \right|


Part 3. X=X+XX = X^{+} - X^{-}

삼각 부등식에 따라 E(XG)E(X+G)+E(XG) \left| E(X|\mathcal{G}) \right| \le \left| E( X^{+} |\mathcal{G}) \right| + \left| E( X^{-} |\mathcal{G}) \right| X+,X0X^{+} , X^{-} \ge 0 이므로 Part 1에 따라 E(XG)E(X+G)+E(XG) \left| E(X|\mathcal{G}) \right| \le E( \left| X^{+} \right| |\mathcal{G}) + E( \left| X^{-} \right| | \mathcal{G})

[7]과 절대값 표현 f=f++f|f| = |f^{+}| + |f^{-}| 에 따라 E(XG)E(X++XG)=E(XG) a.s. \begin{align*} \left| E(X|\mathcal{G}) \right| \le & E( \left| X^{+} \right| + \left| X^{-} \right| | \mathcal{G}) \\ =& E( \left| X \right| | \mathcal{G}) \text{ a.s.} \end{align*}

[11]

E[E(XG)]=ΩE(XG)dP=ΩXdP=E(X) \begin{align*} E \left[ E( X | \mathcal{G} ) \right] =& \int_{\Omega} E ( X | \mathcal{G} ) d P \\ =& \int_{\Omega} X d P \\ =& E(X) \end{align*}