測度論で定義される条件付き分散
定義
確率空間 $( \Omega , \mathcal{F} , P)$ とサブシグマフィールド $\mathcal{G} \subset \mathcal{F}$ が与えられているとし、$X$ と $Y$ が確率変数だとする。
以下の定義された $\operatorname{Var}$ を $\mathcal{G}$ が与えられた時の $X$ の分散という。 $$ \operatorname{Var} ( X | \mathcal{G}) := E \left[ (X - E(X | \mathcal{G}))^2 | \mathcal{G} \right] $$
- $\mathcal{G}$ が$\mathcal{F}$ のサブシグマフィールドであるとは、両方とも $\Omega$ の シグマフィールドで、$\mathcal{G} \subset \mathcal{F}$ であることを意味する。
定理
- [1]: $\operatorname{Var}( X |\mathcal{G}) = E(X^2 | \mathcal{G}) - \left[ E(X | \mathcal{G}) \right]^2$
- 2: $\operatorname{Var}(X) = E \left( \operatorname{Var}(X | \mathcal{G}) \right) + \operatorname{Var}(E(X | \mathcal{G}))$
説明
元々平均よりも分散が難しく、条件付きは紛らわしいものだが、幸いにも測度論が導入された後は、基本的な道具を使用するよりも式展開が簡単になる。
覚えておくべきは、条件付きかどうかに関わらず、これまで気軽に使ってきた分散の性質が保持されることと、$| \mathcal{G}$ を忘れてはいけないことだ。時々、混乱して $E \left[ (X - E(X | \mathcal{G}))^2 \right]$ こんなことを書いてしまうかもしれないが、これは $\mathcal{G}$ の下でのみ計算され、$E \left[ (X - E(X | \mathcal{G}))^2 \right]$ はどこからともなく全体の $\mathcal{F}$ から計算してしまうと、どうにもこうにもならないゴミ値になる。
- $$ V( E ( X | \mathcal{G} )) = V(X) - E ( V( X | \mathcal{G} )) $$ 期待値と分散の概念が必ずしもそうであるわけではないが、一般的に統計学で関心を持つパラメータは母平均 $\mu$ であり、分散は、私たちがどのような推定量 $\overline{X}$ を打ったとき、それが実際の母平均とどれだけ違うかを示す尺度―リスクと見ることができる。ここで、シグマフィールド $\mathcal{G}$ は、確率変数 $X$ に対して与えられた何か情報のセットと考えることができ、$E(V(X|\mathcal{G})) \ge 0$ であるため、$V( E ( X | \mathcal{G} )) $ は元の $V(X)$ のリスクが情報 $\mathcal{G}$ が与えられたことで減少したと考えることができる。これは、より多くの情報が与えられるほど、予測が正確になるという直感と一致する。
証明
[1]
戦略: 証明方法自体は条件がない場合と同じくらい単純だが、この証明プロセスは非常に重要だ。途中で見ることになる $E(X |\mathcal{G})$ は、条件付き期待値の定義に従って $\mathcal{G}$-可測である。$E(X |\mathcal{G})$ は確率変数でありながら$\mathcal{G}$-可測であるということは、$\mathcal{G}$ が与えられている場合、その情報をすべて知っているので、実質的には確定された値のスカラー $\mu = E(X |\mathcal{G})$ として扱われるということである。
スムージング性質: $X$ が $\mathcal{G}$-可測なら $$E(XY | \mathcal{G}) = X E (Y | \mathcal{G}) \text{ a.s.}$$
$E(X |\mathcal{G})$ は $\mathcal{G}$-可測であるため、スムージング性質によって $$ \begin{align*} E \left[ (X - E(X | \mathcal{G}))^2 | \mathcal{G} \right] =& E \left[ X^2 -2 X E(X | \mathcal{G}) + \left( E(X | \mathcal{G}) \right)^2 | \mathcal{G} \right] \\ =& E (X^2 | \mathcal{G}) -2 E \left[ X E(X | \mathcal{G}) | \mathcal{G} \right] + E \left[ \left( E (X | \mathcal{G}) \right)^2 | \mathcal{G} \right] \\ =& E (X^2 | \mathcal{G}) -2 E(X | \mathcal{G}) E \left[ X | \mathcal{G} \right] + \left( E (X | \mathcal{G}) \right)^2 \\ =& E (X^2 | \mathcal{G}) - \left( E (X | \mathcal{G}) \right)^2 \end{align*} $$
■
2
条件付き期待値の性質: すべてのシグマフィールド $\mathcal{G}$ について $$E \left[ E ( X | \mathcal{G} ) \right] = E(X)$$
$$ \begin{align*} E( \operatorname{Var}(X | \mathcal{G}) =& E \left( E (X^2 | \mathcal{G}) - \left( E (X | \mathcal{G}) \right)^2 \right) \\ =& E \left( X^2 - \left( E (X | \mathcal{G}) \right)^2 \right) \\ =& E \left( X^2 \right) - E \left( E \left( X | \mathcal{G} \right)^2 \right) \end{align*} $$ [1]によって $$ \begin{align*} \operatorname{Var}(E(X | \mathcal{G})) =& E \left( E \left( X | \mathcal{G} \right)^2 \right) - E \left( E (X | \mathcal{G}) \right)^2 \\ =& E \left( E \left( X | \mathcal{G} \right)^2 \right) - \left( E (X ) \right)^2 \end{align*} $$ 得られた式の両辺を加えると $$ \begin{align*} E \left( \operatorname{Var}(X | \mathcal{G} ) \right) + \operatorname{Var}(E(X | \mathcal{G})) =& E \left( X^2 \right) - \left( E (X ) \right)^2 \\ =& \operatorname{Var}(X) \end{align*} $$
■