측도론으로 정의되는 조건부 분산
정의
확률 공간 $( \Omega , \mathcal{F} , P)$ 와 서브 시그마 필드 $\mathcal{G} \subset \mathcal{F}$ 가 주어져있다고 하고 $X$, $Y$ 가 확률 변수라고 하자.
다음과 같이 정의된 $\operatorname{Var}$ 를 $\mathcal{G}$ 가 주어졌을 때 $X$ 의 분산이라고 한다. $$ \operatorname{Var} ( X | \mathcal{G}) := E \left[ (X - E(X | \mathcal{G}))^2 | \mathcal{G} \right] $$
- $\mathcal{G}$ 가 $\mathcal{F}$ 의 서브 시그마 필드라는 것은 둘 다 $\Omega$ 의 시그마 필드이되, $\mathcal{G} \subset \mathcal{F}$ 임을 의미한다.
정리
- [1]: $\operatorname{Var}( X |\mathcal{G}) = E(X^2 | \mathcal{G}) - \left[ E(X | \mathcal{G}) \right]^2$
- [2]: $\operatorname{Var}(X) = E \left( \operatorname{Var}(X | \mathcal{G}) \right) + \operatorname{Var}(E(X | \mathcal{G}))$
설명
원래 평균보단 분산이 더 어렵고 조건부는 헷갈리게 마련인데, 다행스럽게도 측도론이 도입되고 나면 오히려 기초적인 툴만 사용하는 것보다 수식전개가 쉽다.
기억해야할 것은 조건부가 되든 말든 편하게 사용해오던 분산의 성질들이 유지된다는 것과 $| \mathcal{G}$ 를 빼먹으면 안된다는 것이다. 간혹 헷갈려서 $E \left[ (X - E(X | \mathcal{G}))^2 \right]$ 이런 걸 쓸 수도 있는데, 이것은 $E(X | \mathcal{G})$ 만 $\mathcal{G}$ 하에서 구해지고 $E \left[ (X - E(X | \mathcal{G}))^2 \right]$ 는 뜬금없이 전체 $\mathcal{F}$ 에서 계산해서 이도저도 아닌 쓰레기값이 된다.
- [2]: 많은 곳에서 수식 전개를 위한 트릭으로 쓰이고 있다. 이에 대한 직관적인 이해를 위해 다음과 같이 이항된 꼴을 생각해보자. $$ V( E ( X | \mathcal{G} )) = V(X) - E ( V( X | \mathcal{G} )) $$ 기대값과 분산의 개념이 꼭 그러한 것은 아니지만, 보통 통계학에서 관심을 갖는 모수는 모평균 $\mu$ 고 분산은 우리가 어떠한 추정량 $\overline{X}$ 을 찍었을 때 그것이 실제 모평균과 얼마나 다를지를 나타내는 척도―리스크Risk로 볼 수 있다. 여기서 시그마 필드 $\mathcal{G}$ 는 확률 변수 $X$ 에 대해 주어진 어떤 정보들의 집합으로 생각할 수 있으며, $E(V(X|\mathcal{G})) \ge 0$ 이므로 $V( E ( X | \mathcal{G} )) $ 는 원래의 $V(X)$ 에서 정보 $\mathcal{G}$ 가 주어져서 그 위험성이 줄어든 것으로 받아들일 수 있다. 이는 더 많은 정보가 주어질수록 예측이 정확해진다는 직관과 일치한다.
증명
[1]
전략: 증명 방법 자체는 조건부가 없는 것과 마찬가지로 간단하지만, 이 증명과정은 대단히 중요하다. 중간에서 보게 될 $E(X |\mathcal{G})$ 은 조건부 기대값의 정의에 따라 $\mathcal{G}$-가측이다. $E(X |\mathcal{G})$ 역시 확률 변수인데 $\mathcal{G}$-가측이라는 말은 $\mathcal{G}$ 가 주어져있을 땐 그 정보를 모두 알고 있으므로 사실상 확률변수가 아니라 값이 확정된 스칼라 $\mu = E(X |\mathcal{G})$ 처럼 취급된다는 것이다.
스무딩 성질: $X$ 가 $\mathcal{G}$-가측이면 $$E(XY | \mathcal{G}) = X E (Y | \mathcal{G}) \text{ a.s.}$$
$E(X |\mathcal{G})$ 는 $\mathcal{G}$-가측이므로 스무딩 성질에 따라 $$ \begin{align*} E \left[ (X - E(X | \mathcal{G}))^2 | \mathcal{G} \right] =& E \left[ X^2 -2 X E(X | \mathcal{G}) + \left( E(X | \mathcal{G}) \right)^2 | \mathcal{G} \right] \\ =& E (X^2 | \mathcal{G}) -2 E \left[ X E(X | \mathcal{G}) | \mathcal{G} \right] + E \left[ \left( E (X | \mathcal{G}) \right)^2 | \mathcal{G} \right] \\ =& E (X^2 | \mathcal{G}) -2 E(X | \mathcal{G}) E \left[ X | \mathcal{G} \right] + \left( E (X | \mathcal{G}) \right)^2 \\ =& E (X^2 | \mathcal{G}) - \left( E (X | \mathcal{G}) \right)^2 \end{align*} $$
■
[2]
조건부 기대값의 성질: 모든 시그마 필드 $\mathcal{G}$ 에 대해 $$E \left[ E ( X | \mathcal{G} ) \right] = E(X)$$
$$ \begin{align*} E( \operatorname{Var}(X | \mathcal{G}) =& E \left( E (X^2 | \mathcal{G}) - \left( E (X | \mathcal{G}) \right)^2 \right) \\ =& E \left( X^2 - \left( E (X | \mathcal{G}) \right)^2 \right) \\ =& E \left( X^2 \right) - E \left( E \left( X | \mathcal{G} \right)^2 \right) \end{align*} $$ [1]에 의해 $$ \begin{align*} \operatorname{Var}(E(X | \mathcal{G})) =& E \left( E \left( X | \mathcal{G} \right)^2 \right) - E \left( E (X | \mathcal{G}) \right)^2 \\ =& E \left( E \left( X | \mathcal{G} \right)^2 \right) - \left( E (X ) \right)^2 \end{align*} $$ 위에서 얻은 식들의 양변을 더하면 $$ \begin{align*} E \left( \operatorname{Var}(X | \mathcal{G} ) \right) + \operatorname{Var}(E(X | \mathcal{G})) =& E \left( X^2 \right) - \left( E (X ) \right)^2 \\ =& \operatorname{Var}(X) \end{align*} $$
■