측도론으로 정의되는 조건부 분산
📂확률론측도론으로 정의되는 조건부 분산
정의
확률 공간 (Ω,F,P) 와 서브 시그마 필드 G⊂F 가 주어져있다고 하고 X, Y 가 확률 변수라고 하자.
다음과 같이 정의된 Var 를 G 가 주어졌을 때 X 의 분산이라고 한다.
Var(X∣G):=E[(X−E(X∣G))2∣G]
- G 가 F 의 서브 시그마 필드라는 것은 둘 다 Ω 의 시그마 필드이되, G⊂F 임을 의미한다.
정리
- [1]: Var(X∣G)=E(X2∣G)−[E(X∣G)]2
- [2]: Var(X)=E(Var(X∣G))+Var(E(X∣G))
설명
원래 평균보단 분산이 더 어렵고 조건부는 헷갈리게 마련인데, 다행스럽게도 측도론이 도입되고 나면 오히려 기초적인 툴만 사용하는 것보다 수식전개가 쉽다.
기억해야할 것은 조건부가 되든 말든 편하게 사용해오던 분산의 성질들이 유지된다는 것과 ∣G 를 빼먹으면 안된다는 것이다. 간혹 헷갈려서 E[(X−E(X∣G))2] 이런 걸 쓸 수도 있는데, 이것은 E(X∣G) 만 G 하에서 구해지고 E[(X−E(X∣G))2] 는 뜬금없이 전체 F 에서 계산해서 이도저도 아닌 쓰레기값이 된다.
- [2]: 많은 곳에서 수식 전개를 위한 트릭으로 쓰이고 있다. 이에 대한 직관적인 이해를 위해 다음과 같이 이항된 꼴을 생각해보자.
V(E(X∣G))=V(X)−E(V(X∣G))
기대값과 분산의 개념이 꼭 그러한 것은 아니지만, 보통 통계학에서 관심을 갖는 모수는 모평균 μ 고 분산은 우리가 어떠한 추정량 X 을 찍었을 때 그것이 실제 모평균과 얼마나 다를지를 나타내는 척도―리스크Risk로 볼 수 있다. 여기서 시그마 필드 G 는 확률 변수 X 에 대해 주어진 어떤 정보들의 집합으로 생각할 수 있으며, E(V(X∣G))≥0 이므로 V(E(X∣G)) 는 원래의 V(X) 에서 정보 G 가 주어져서 그 위험성이 줄어든 것으로 받아들일 수 있다. 이는 더 많은 정보가 주어질수록 예측이 정확해진다는 직관과 일치한다.
증명
[1]
전략: 증명 방법 자체는 조건부가 없는 것과 마찬가지로 간단하지만, 이 증명과정은 대단히 중요하다. 중간에서 보게 될 E(X∣G) 은 조건부 기대값의 정의에 따라 G-가측이다. E(X∣G) 역시 확률 변수인데 G-가측이라는 말은 G 가 주어져있을 땐 그 정보를 모두 알고 있으므로 사실상 확률변수가 아니라 값이 확정된 스칼라 μ=E(X∣G) 처럼 취급된다는 것이다.
스무딩 성질: X 가 G-가측이면
E(XY∣G)=XE(Y∣G) a.s.
E(X∣G) 는 G-가측이므로 스무딩 성질에 따라
E[(X−E(X∣G))2∣G]====E[X2−2XE(X∣G)+(E(X∣G))2∣G]E(X2∣G)−2E[XE(X∣G)∣G]+E[(E(X∣G))2∣G]E(X2∣G)−2E(X∣G)E[X∣G]+(E(X∣G))2E(X2∣G)−(E(X∣G))2
■
[2]
조건부 기대값의 성질: 모든 시그마 필드 G 에 대해
E[E(X∣G)]=E(X)
E(Var(X∣G)===E(E(X2∣G)−(E(X∣G))2)E(X2−(E(X∣G))2)E(X2)−E(E(X∣G)2)
[1]에 의해
Var(E(X∣G))==E(E(X∣G)2)−E(E(X∣G))2E(E(X∣G)2)−(E(X))2
위에서 얻은 식들의 양변을 더하면
E(Var(X∣G))+Var(E(X∣G))==E(X2)−(E(X))2Var(X)
■