조건부 기대값의 성질들
정리
확률 공간 $( \Omega , \mathcal{F} , P)$ 이 주어져 있다고 하자.
- [1] 측도론에서의 정리: 가측 함수 $f$, $g$ 가 $\mathcal{F}$-가측이면 $g = h (f)$ 를 만족하는 보렐 함수 $h : \mathbb{R} \to \mathbb{R}$ 가 존재한다.
- [2] 확률론에서의 응용: 확률 변수 $X$, $Y$ 이 $\sigma (X)$-가측이면 $E(Y | X) = h(X)$ 를 만족하는 보렐 함수 $h : \mathbb{R} \to \mathbb{R}$ 가 존재한다.
- [3]: $X$ 가 $\mathcal{F}$-가측이면 $$E(X|\mathcal{F}) =X \text{ a.s.}$$
- [4]: 시그마 필드 $\mathcal{G} = \left\{ \emptyset , \Omega \right\}$ 에 대해 $$E(X|\mathcal{G}) = E(X) \text{ a.s.}$$
- [5]: 상수 $c$ 와 모든 시그마 필드 $\mathcal{G}$ 에 대해 $$E(c|\mathcal{F}) = c \text{ a.s.}$$
- [6]: 상수 $c$ 에 대해 $$E(cX | \mathcal{G}) = c E(X | \mathcal{G}) \text{ a.s.}$$
- [7]: $$E(X+Y | \mathcal{G}) = E(X | \mathcal{G}) + E(Y| \mathcal{G}) \text{ a.s.}$$
- [8]: $X \ge 0 \text{ a.s.}$ 이면 $$E(X | \mathcal{G}) \ge 0 \text{ a.s.}$$
- [9]: $X \ge Y \text{ a.s.}$ 이면 $$E(X | \mathcal{G}) \ge E(Y | \mathcal{G}) \text{ a.s.}$$
- [10]: $$\left| E( X | \mathcal{G} ) \right| \le E ( | X | | \mathcal{G} ) \text{ a.s.}$$
- [11]: 모든 시그마 필드 $\mathcal{G}$ 에 대해 $$E \left[ E ( X | \mathcal{G} ) \right] = E(X)$$
- $\sigma (X) = \left\{ X^{-1} (B) : B \in \mathcal{B}(\mathbb{R}) \right\}$ 는 확률 변수 $X$ 로써 생성되는 $\Omega$ 의 가장 작은 시그마 필드를 나타낸다. 이에 대해 $E(Y|\sigma (X)) = E(Y|X)$ 와 같이 표기할 수 있다.
- $Z$ 가 $\mathcal{F}$-가측 함수라는 것은 모든 보렐 셋 $B \in \mathcal{B}(\mathbb{R})$ 에 대해 $Z^{-1} (B) \in \mathcal{F}$ 라는 의미다.
- 보렐 함수란 모든 보렐 셋 $B \in \mathcal{B}(\mathbb{R})$ 에 대해 $f^{-1} (B)$ 도 보렐 셋인 함수 $f : \mathbb{R} \to \mathbb{R}$ 을 말한다.
설명
- [1],[2]: 위의 두 정리는 $X$ 에 대한 $Y$ 의 조건부 기댓값이 $X$ 에 종속된 어떤 함수로 나타난다는 것을 말해준다. 특히 $X$ 의 값이 주어졌으면 $E(Y | X = a) = h(a)$ 와 같이 나타낸다. [2]는 [1]의 따름정리로써, 이에 의해 다음과 같이 기초적인 확률론에서도 일상적으로 사용하는 기대값의 성질들이 거의 확실히 보장된다.
선형성
- [5]~[7]: $E(aX + b | \mathcal{G}) = aE(X | \mathcal{G}) + b$: 기대값의 리니어러티linearity는 조건부라도 유지된다.
시그마필드는 정보다
- [3] $E(X | \mathcal{F}) = X$: 수식의 의미를 생각해 보았을 때, 확률 변수 $X$ 가 $\mathcal{F}$-가측이라는 것은 시그마 필드 $\mathcal{F}$ 가 $X$ 의 모든 정보를 알고 있다는 것이다. 반대로 생각해보면 그러니까 가측이라고 부르는 것이다. 그러므로 $E(X|\mathcal{F})$ 는 어떤 방해도 없이 $X$ 를 그대로 파악할 수 있다. $\mathcal{F}$ 상에서 모든 정보가 알려진 $X$ 는 굳이 $E$ 로 계산할 필요가 없다. 다음의 예시를 생각해보자:
- 6면 주사위를 던져 눈 하나당 1달러를 받는 게임을 할 때 받는 돈의 기대값은 3.5달러다. 이걸 계산하는 이유는 실제로 주사위의 면이 뭐가 나올지 모르기 때문이다. 하지만 주사위를 던지기 전에 내 머리속에 시그마 필드 $\mathcal{F}$ 가 정확히 주어진다면 주사위 눈 $X$ 를 정확하게 측정할 수 있으므로 정확히 몇 달러를 받을 것인지 알 수가 있다. 게임을 할 때마다 3.5달러를 지불해야할지라도, 이길 게임은 하고 질 게임은 안 하면 그만이다. 이러한 센스에서 난수 해킹은 시그마 필드(난수표)를 훔쳐 원래 랜덤이었어야할 것들을 확정적으로 만들어버리는 공격 기법에 해당한다. 이게 성공하면 은행 보안카드나 OTP처럼 같이 난수에 의존하는 암호체계가 뚫린다.
한편 $\sigma (X)$ 는 $X$ 의 모든 정보를 알고 있으면서 가장 작은 시그마필드로 정의되었으므로 당연히 $E(X| \sigma (X)) = X$ 다. 이는 위에서 소개된 노테이션에 따라 $E(X|X) = X$ 와 같다.
- [4] $E(X|\mathcal{G}) = E(X)$: 수식의 의미를 생각해 보았을 때, 트리비얼 시그마 필드 $\mathcal{G} = \left\{ \emptyset , \Omega \right\}$ 는 $X$ 에 대해 어떤 정보도 주지 않기 때문에 막막하게 확률 공간 $\Omega$ 전체를 훑어서 $\displaystyle \int_{\Omega} X d P$ 를 계산할 수 밖에 없다.
- [10] $\left| E( X | \mathcal{G} ) \right| \le E ( | X | | \mathcal{G} )$: 절대값의 성질에 따라 $$ - E ( | X | | \mathcal{G} ) \le E( X | \mathcal{G} ) \le E ( | X | | \mathcal{G} ) $$
- [11] $E \left[ E ( X | \mathcal{G} ) \right] = E(X)$: 확률론의 각종 증명에서 유용하게 쓰이는 등식으로써, 주로 $E(X)$ 는 바로 계산하기 어렵지만 어떤 $\mathcal{G}$ 가 주어진다면 $E(X|\mathcal{G})$ 가 계산하기 편해질 때 트릭으로써 사용한다.
증명
[1]
$h : \mathbb{R} \to \mathbb{R}$ 를 $z \in \mathbb{R}$ 에 대해 $h(z) := \left( g \circ f^{-1} ( \left\{ z \right\} ) \right)$ 과 같이 정의하자.
$\left\{ z \right\} \in \mathcal{B}(\mathbb{R})$ 이면 $f$ 는 $\mathcal{F}$-가측이므로 $f^{-1}(\left\{ z \right\}) \in \mathcal{F}$ 고, $g$ 역시 $\mathcal{F}$-가측이므로 $h$ 는 잘 정의되며, $g (\omega) = ( h \circ f ) ( \omega )$ 를 만족한다.
모든 보렐 셋 $B \in \mathcal{B}(\mathbb{R})$ 에 대해 $$ h^{-1}(B) = (f \circ g^{-1})(B) = f \left( g^{-1} (B) \right) $$ 를 생각해보면 $g^{-1} (B) \in \mathcal{F}$ 이므로 $f(g^{-1} (B) ) \in \mathcal{B}(\mathbb{R})$ 이다. 모든 $B \in \mathcal{B}(\mathbb{R})$ 에 대해 $h^{-1}(B) \in \mathcal{B}(\mathbb{R})$ 이므로, $h$ 는 보렐 함수다.
■
[2]
$E ( Y | X ) = E ( Y | \sigma (X) )$ 는 조건부 기대값의 정의에 따라 $\sigma (X)$-가측인 확률 변수고, $X$ 역시 $\sigma (X)$ 의 정의에 따라 당연히 $\sigma (X)$-가측 확률변수다. 그러면 [1]에 의해 $\mathcal{F} = \sigma (X)$ 라 두고 $$ f = X \\ g = E ( Y | X ) $$ 라 하면 $E(Y|X) = h(X)$ 를 만족하는 보렐 함수 $h : \mathbb{R} \to \mathbb{R}$ 가 존재한다.
■
전략 [3]~[7]: 적분폼으로 바꿔서 전개해서 정적분이 같음을 보인 후 다음의 정리를 적용한다. 원래 별다른 이름이 없으나, 이 포스트에서만 르벡 적분 렘마라고 명명하겠다.
르벡 적분의 성질 $$ \forall A \in \mathcal{F}, \int_{A} f dm = 0 \iff f = 0 \text{ a.e.} $$
[3]
모든 $A \in \mathcal{F}$ 에 대해 $\displaystyle \int_{A} X dP = \int_{A} X dP$ 를 만족하는 $X$ 가 유일하게 존재하므로 조건부 기대값의 정의에 따라 $X = E(X| \mathcal{F})$ 는 $\mathcal{F}$ 에 대한 $X$ 의 조건부 기댓값이다. 따라서 모든 $A \in \mathcal{F}$ 에 대해 $$ \int_{A} E(X |\mathcal{F}) dP = \int_{A} X dP $$ 이고, 르벡 적분 렘마에 의해 $X = E(X |\mathcal{F}) \text{ a.s.}$
■
[4]
조건부 기댓값의 정의에 따라 $\displaystyle \int_{A} E(X |\mathcal{G}) dP = \int_{A} X dP$ 다.
Case 1. $A = \emptyset$
$$ 0 = \int_{\emptyset} E(X |\mathcal{G}) dP = \int_{\emptyset} X dP = 0 $$
Case 2. $A = \Omega$
$$ \int_{\Omega} E(X |\mathcal{G}) dP = \int_{\Omega} X dP = E(X) = E(X) P(\Omega) = E(X) \int_{\Omega} 1 dP = \int_{\Omega} E(X) dP $$
따라서 어떤 경우든, 르벡 적분 렘마에 의해 $X = E(X |\mathcal{G}) \text{ a.s.}$
■
[5]
$c \in \mathcal{G}$ 이고 $E(c | \mathcal{G}) \in \mathcal{G}$ 이므로 조건부 기댓값의 정의에 따라 모든 $A \in \mathcal{G}$ 에 대해 $$ \int_{A} E(c |\mathcal{G}) dP = \int_{A} X dP $$ 고, 따라서 르벡 적분 렘마에 의해 $c = E(c | \mathcal{G}) \text{ a.s.}$
■
[6]
조건부 기댓값의 정의와 르벡 적분의 리니어러티에 의해 모든 $A \in \mathcal{G}$ 에 대해 $$ \begin{align*} \int_{A} E( cX |\mathcal{G}) dP =& \int_{A} cX dP \\ =& c \int_{A} X dP \\ =& c \int_{A} E(X|\mathcal{G}) dP \\ =& \int_{A} c E(X|\mathcal{G}) dP \end{align*} $$ 이고, 르벡 적분 렘마에 의해 $E( cX |\mathcal{G}) = c E(X|\mathcal{G}) dP \text{ a.s.}$
■
[7]
조건부 기댓값의 정의와 르벡 적분의 리니어러티에 의해 모든 $A \in \mathcal{G}$ 에 대해 $$ \begin{align*} \int_{A} E( X+Y |\mathcal{G}) dP =& \int_{A} (X+Y) dP \\ =& \int_{A} X dP +\int_{A} Y dP \\ =& \int_{A} E(X|\mathcal{G}) dP + \int_{A} E(Y|\mathcal{G}) dP \\ =& \int_{A} \left[ E(X|\mathcal{G}) + E(Y|\mathcal{G}) \right] dP \end{align*} $$ 이고, 르벡 적분 렘마에 의해 $$ E( X +Y |\mathcal{G}) = E(X|\mathcal{G}) + E(Y|\mathcal{G}) dP \text{ a.s.} $$
■
[8]
$E( X |\mathcal{G}) < 0$ 이라고 가정해보면 $$ \begin{align*} \int_{A} E( X |\mathcal{G}) dP =& \int_{A} X dP \\ \ge& \int_{A} 0 dP \\ =& 0 \end{align*} $$ 이므로 모순이다. 따라서 $E( X |\mathcal{G}) \ge 0 \text{ a.s.}$ 이어야한다.
■
[9]
$Z := X - Y \ge 0$ 라고 하면 [8] 에 의해 $$ E(X-Y | \mathcal{G}) \ge 0 $$ 이고, 조건부 기대값의 리니어러티에 의해 $$ E(X| \mathcal{G}) - E(Y | \mathcal{G}) \ge 0 \text{ a.s.} $$
■
[10]
Part 1. $X \ge 0$
$X \ge 0$ 이면 $|X| = X$ 이므로 $$ E( |X| |\mathcal{G}) = E(X|\mathcal{G}) $$
[8]에 따라 $E(X|\mathcal{G}) \ge 0$ 이므로 마찬가지로 $E(X|\mathcal{G}) = \left| E(X|\mathcal{G}) \right|$ 가 되어 $$ E( |X| |\mathcal{G}) = E(X|\mathcal{G}) = \left| E(X|\mathcal{G}) \right| $$
Part 2. $X < 0$
[6]에 의해 $$ E( |X| |\mathcal{G}) = E( -X |\mathcal{G}) = - E(X |\mathcal{G}) = \left| E(X|\mathcal{G}) \right| $$
Part 3. $X = X^{+} - X^{-}$
삼각 부등식에 따라 $$ \left| E(X|\mathcal{G}) \right| \le \left| E( X^{+} |\mathcal{G}) \right| + \left| E( X^{-} |\mathcal{G}) \right| $$ $X^{+} , X^{-} \ge 0$ 이므로 Part 1에 따라 $$ \left| E(X|\mathcal{G}) \right| \le E( \left| X^{+} \right| |\mathcal{G}) + E( \left| X^{-} \right| | \mathcal{G}) $$
[7]과 절대값 표현 $|f| = |f^{+}| + |f^{-}|$ 에 따라 $$ \begin{align*} \left| E(X|\mathcal{G}) \right| \le & E( \left| X^{+} \right| + \left| X^{-} \right| | \mathcal{G}) \\ =& E( \left| X \right| | \mathcal{G}) \text{ a.s.} \end{align*} $$
■
[11]
$$ \begin{align*} E \left[ E( X | \mathcal{G} ) \right] =& \int_{\Omega} E ( X | \mathcal{G} ) d P \\ =& \int_{\Omega} X d P \\ =& E(X) \end{align*} $$
■