[1] 측도론에서의 정리: 가측 함수f, g 가 F-가측이면 g=h(f) 를 만족하는 보렐 함수 h:R→R 가 존재한다.
[2] 확률론에서의 응용: 확률 변수X, Y 이 σ(X)-가측이면 E(Y∣X)=h(X) 를 만족하는 보렐 함수 h:R→R 가 존재한다.
[3]: X 가 F-가측이면 E(X∣F)=X a.s.
[4]: 시그마 필드 G={∅,Ω} 에 대해 E(X∣G)=E(X) a.s.
[5]: 상수 c 와 모든 시그마 필드 G 에 대해 E(c∣F)=c a.s.
[6]: 상수 c 에 대해 E(cX∣G)=cE(X∣G) a.s.
[7]: E(X+Y∣G)=E(X∣G)+E(Y∣G) a.s.
[8]: X≥0 a.s. 이면 E(X∣G)≥0 a.s.
[9]: X≥Y a.s. 이면 E(X∣G)≥E(Y∣G) a.s.
[10]: ∣E(X∣G)∣≤E(∣X∣∣G) a.s.
[11]: 모든 시그마 필드 G 에 대해 E[E(X∣G)]=E(X)
σ(X)={X−1(B):B∈B(R)} 는 확률 변수 X 로써 생성되는 Ω 의 가장 작은 시그마 필드를 나타낸다. 이에 대해 E(Y∣σ(X))=E(Y∣X) 와 같이 표기할 수 있다.
Z 가 F-가측 함수라는 것은 모든 보렐 셋 B∈B(R) 에 대해 Z−1(B)∈F 라는 의미다.
보렐 함수란 모든 보렐 셋B∈B(R) 에 대해 f−1(B) 도 보렐 셋인 함수 f:R→R 을 말한다.
설명
[1],[2]: 위의 두 정리는 X 에 대한 Y 의 조건부 기댓값이 X 에 종속된 어떤 함수로 나타난다는 것을 말해준다. 특히 X 의 값이 주어졌으면 E(Y∣X=a)=h(a) 와 같이 나타낸다. [2]는 [1]의 따름정리로써, 이에 의해 다음과 같이 기초적인 확률론에서도 일상적으로 사용하는 기대값의 성질들이 거의 확실히 보장된다.
[3] E(X∣F)=X: 수식의 의미를 생각해 보았을 때, 확률 변수 X 가 F-가측이라는 것은 시그마 필드 F 가 X 의 모든 정보를 알고 있다는 것이다. 반대로 생각해보면 그러니까 가측이라고 부르는 것이다. 그러므로 E(X∣F) 는 어떤 방해도 없이 X 를 그대로 파악할 수 있다. F 상에서 모든 정보가 알려진 X 는 굳이 E 로 계산할 필요가 없다. 다음의 예시를 생각해보자:
6면 주사위를 던져 눈 하나당 1달러를 받는 게임을 할 때 받는 돈의 기대값은 3.5달러다. 이걸 계산하는 이유는 실제로 주사위의 면이 뭐가 나올지 모르기 때문이다. 하지만 주사위를 던지기 전에 내 머리속에 시그마 필드 F 가 정확히 주어진다면 주사위 눈 X 를 정확하게 측정할 수 있으므로 정확히 몇 달러를 받을 것인지 알 수가 있다. 게임을 할 때마다 3.5달러를 지불해야할지라도, 이길 게임은 하고 질 게임은 안 하면 그만이다. 이러한 센스에서 난수 해킹은 시그마 필드(난수표)를 훔쳐 원래 랜덤이었어야할 것들을 확정적으로 만들어버리는 공격 기법에 해당한다. 이게 성공하면 은행 보안카드나 OTP처럼 같이 난수에 의존하는 암호체계가 뚫린다.
한편 σ(X) 는 X 의 모든 정보를 알고 있으면서 가장 작은 시그마필드로 정의되었으므로 당연히 E(X∣σ(X))=X 다. 이는 위에서 소개된 노테이션에 따라 E(X∣X)=X 와 같다.
[4] E(X∣G)=E(X): 수식의 의미를 생각해 보았을 때, 트리비얼 시그마 필드 G={∅,Ω} 는 X 에 대해 어떤 정보도 주지 않기 때문에 막막하게 확률 공간 Ω 전체를 훑어서 ∫ΩXdP 를 계산할 수 밖에 없다.
[10] ∣E(X∣G)∣≤E(∣X∣∣G): 절대값의 성질에 따라
−E(∣X∣∣G)≤E(X∣G)≤E(∣X∣∣G)
[11] E[E(X∣G)]=E(X): 확률론의 각종 증명에서 유용하게 쓰이는 등식으로써, 주로 E(X) 는 바로 계산하기 어렵지만 어떤 G 가 주어진다면 E(X∣G) 가 계산하기 편해질 때 트릭으로써 사용한다.
증명
[1]
h:R→R 를 z∈R 에 대해 h(z):=(g∘f−1({z})) 과 같이 정의하자.
{z}∈B(R) 이면 f 는 F-가측이므로 f−1({z})∈F 고, g 역시 F-가측이므로 h 는 잘 정의되며, g(ω)=(h∘f)(ω) 를 만족한다.
모든 보렐 셋 B∈B(R) 에 대해
h−1(B)=(f∘g−1)(B)=f(g−1(B))
를 생각해보면 g−1(B)∈F 이므로 f(g−1(B))∈B(R) 이다. 모든 B∈B(R) 에 대해 h−1(B)∈B(R) 이므로, h 는 보렐 함수다.
■
[2]
E(Y∣X)=E(Y∣σ(X)) 는 조건부 기대값의 정의에 따라 σ(X)-가측인 확률 변수고, X 역시 σ(X) 의 정의에 따라 당연히 σ(X)-가측 확률변수다. 그러면 [1]에 의해 F=σ(X) 라 두고
f=Xg=E(Y∣X)
라 하면 E(Y∣X)=h(X) 를 만족하는 보렐 함수 h:R→R 가 존재한다.
■
전략 [3]~[7]: 적분폼으로 바꿔서 전개해서 정적분이 같음을 보인 후 다음의 정리를 적용한다. 원래 별다른 이름이 없으나, 이 포스트에서만 르벡 적분 렘마라고 명명하겠다.
모든 A∈F 에 대해 ∫AXdP=∫AXdP 를 만족하는 X 가 유일하게 존재하므로 조건부 기대값의 정의에 따라 X=E(X∣F) 는 F 에 대한 X 의 조건부 기댓값이다. 따라서 모든 A∈F 에 대해
∫AE(X∣F)dP=∫AXdP
이고, 르벡 적분 렘마에 의해 X=E(X∣F) a.s.
c∈G 이고 E(c∣G)∈G 이므로 조건부 기댓값의 정의에 따라 모든 A∈G 에 대해
∫AE(c∣G)dP=∫AXdP
고, 따라서 르벡 적분 렘마에 의해 c=E(c∣G) a.s.
■
[6]
조건부 기댓값의 정의와 르벡 적분의 리니어러티에 의해 모든 A∈G 에 대해
∫AE(cX∣G)dP====∫AcXdPc∫AXdPc∫AE(X∣G)dP∫AcE(X∣G)dP
이고, 르벡 적분 렘마에 의해 E(cX∣G)=cE(X∣G)dP a.s.
■
[7]
조건부 기댓값의 정의와 르벡 적분의 리니어러티에 의해 모든 A∈G 에 대해
∫AE(X+Y∣G)dP====∫A(X+Y)dP∫AXdP+∫AYdP∫AE(X∣G)dP+∫AE(Y∣G)dP∫A[E(X∣G)+E(Y∣G)]dP
이고, 르벡 적분 렘마에 의해
E(X+Y∣G)=E(X∣G)+E(Y∣G)dP a.s.
■
[8]
E(X∣G)<0 이라고 가정해보면
∫AE(X∣G)dP=≥=∫AXdP∫A0dP0
이므로 모순이다. 따라서 E(X∣G)≥0 a.s. 이어야한다.
■
[9]
Z:=X−Y≥0 라고 하면 [8] 에 의해
E(X−Y∣G)≥0
이고, 조건부 기대값의 리니어러티에 의해
E(X∣G)−E(Y∣G)≥0 a.s.
■
[10]
Part 1. X≥0
X≥0 이면 ∣X∣=X 이므로
E(∣X∣∣G)=E(X∣G)
[8]에 따라 E(X∣G)≥0 이므로 마찬가지로 E(X∣G)=∣E(X∣G)∣ 가 되어
E(∣X∣∣G)=E(X∣G)=∣E(X∣G)∣