logo

測度論で定義される条件付き分散 📂確率論

測度論で定義される条件付き分散

定義

確率空間 (Ω,F,P)( \Omega , \mathcal{F} , P) とサブシグマフィールド GF\mathcal{G} \subset \mathcal{F} が与えられているとし、XXYY確率変数だとする。

以下の定義された Var\operatorname{Var}G\mathcal{G} が与えられた時の XX の分散という。 Var(XG):=E[(XE(XG))2G] \operatorname{Var} ( X | \mathcal{G}) := E \left[ (X - E(X | \mathcal{G}))^2 | \mathcal{G} \right]


  • G\mathcal{G}F\mathcal{F} のサブシグマフィールドであるとは、両方とも Ω\Omegaシグマフィールドで、GF\mathcal{G} \subset \mathcal{F} であることを意味する。

定理

  • [1]: Var(XG)=E(X2G)[E(XG)]2\operatorname{Var}( X |\mathcal{G}) = E(X^2 | \mathcal{G}) - \left[ E(X | \mathcal{G}) \right]^2
  • 2: Var(X)=E(Var(XG))+Var(E(XG))\operatorname{Var}(X) = E \left( \operatorname{Var}(X | \mathcal{G}) \right) + \operatorname{Var}(E(X | \mathcal{G}))

説明

元々平均よりも分散が難しく、条件付きは紛らわしいものだが、幸いにも測度論が導入された後は、基本的な道具を使用するよりも式展開が簡単になる。

覚えておくべきは、条件付きかどうかに関わらず、これまで気軽に使ってきた分散の性質が保持されることと、G| \mathcal{G} を忘れてはいけないことだ。時々、混乱して E[(XE(XG))2]E \left[ (X - E(X | \mathcal{G}))^2 \right] こんなことを書いてしまうかもしれないが、これは G\mathcal{G} の下でのみ計算され、E[(XE(XG))2]E \left[ (X - E(X | \mathcal{G}))^2 \right] はどこからともなく全体の F\mathcal{F} から計算してしまうと、どうにもこうにもならないゴミ値になる。

  • V(E(XG))=V(X)E(V(XG)) V( E ( X | \mathcal{G} )) = V(X) - E ( V( X | \mathcal{G} )) 期待値と分散の概念が必ずしもそうであるわけではないが、一般的に統計学で関心を持つパラメータは母平均 μ\mu であり、分散は、私たちがどのような推定量 X\overline{X} を打ったとき、それが実際の母平均とどれだけ違うかを示す尺度―リスクと見ることができる。ここで、シグマフィールド G\mathcal{G} は、確率変数 XX に対して与えられた何か情報のセットと考えることができ、E(V(XG))0E(V(X|\mathcal{G})) \ge 0 であるため、V(E(XG))V( E ( X | \mathcal{G} )) は元の V(X)V(X) のリスクが情報 G\mathcal{G} が与えられたことで減少したと考えることができる。これは、より多くの情報が与えられるほど、予測が正確になるという直感と一致する。

証明

[1]

戦略: 証明方法自体は条件がない場合と同じくらい単純だが、この証明プロセスは非常に重要だ。途中で見ることになる E(XG)E(X |\mathcal{G}) は、条件付き期待値の定義に従って G\mathcal{G}-可測である。E(XG)E(X |\mathcal{G}) は確率変数でありながらG\mathcal{G}-可測であるということは、G\mathcal{G} が与えられている場合、その情報をすべて知っているので、実質的には確定された値のスカラー μ=E(XG)\mu = E(X |\mathcal{G}) として扱われるということである。


スムージング性質: XXG\mathcal{G}-可測なら E(XYG)=XE(YG) a.s.E(XY | \mathcal{G}) = X E (Y | \mathcal{G}) \text{ a.s.}

E(XG)E(X |\mathcal{G})G\mathcal{G}-可測であるため、スムージング性質によって E[(XE(XG))2G]=E[X22XE(XG)+(E(XG))2G]=E(X2G)2E[XE(XG)G]+E[(E(XG))2G]=E(X2G)2E(XG)E[XG]+(E(XG))2=E(X2G)(E(XG))2 \begin{align*} E \left[ (X - E(X | \mathcal{G}))^2 | \mathcal{G} \right] =& E \left[ X^2 -2 X E(X | \mathcal{G}) + \left( E(X | \mathcal{G}) \right)^2 | \mathcal{G} \right] \\ =& E (X^2 | \mathcal{G}) -2 E \left[ X E(X | \mathcal{G}) | \mathcal{G} \right] + E \left[ \left( E (X | \mathcal{G}) \right)^2 | \mathcal{G} \right] \\ =& E (X^2 | \mathcal{G}) -2 E(X | \mathcal{G}) E \left[ X | \mathcal{G} \right] + \left( E (X | \mathcal{G}) \right)^2 \\ =& E (X^2 | \mathcal{G}) - \left( E (X | \mathcal{G}) \right)^2 \end{align*}

2

条件付き期待値の性質: すべてのシグマフィールド G\mathcal{G} について E[E(XG)]=E(X)E \left[ E ( X | \mathcal{G} ) \right] = E(X)

E(Var(XG)=E(E(X2G)(E(XG))2)=E(X2(E(XG))2)=E(X2)E(E(XG)2) \begin{align*} E( \operatorname{Var}(X | \mathcal{G}) =& E \left( E (X^2 | \mathcal{G}) - \left( E (X | \mathcal{G}) \right)^2 \right) \\ =& E \left( X^2 - \left( E (X | \mathcal{G}) \right)^2 \right) \\ =& E \left( X^2 \right) - E \left( E \left( X | \mathcal{G} \right)^2 \right) \end{align*} [1]によって Var(E(XG))=E(E(XG)2)E(E(XG))2=E(E(XG)2)(E(X))2 \begin{align*} \operatorname{Var}(E(X | \mathcal{G})) =& E \left( E \left( X | \mathcal{G} \right)^2 \right) - E \left( E (X | \mathcal{G}) \right)^2 \\ =& E \left( E \left( X | \mathcal{G} \right)^2 \right) - \left( E (X ) \right)^2 \end{align*} 得られた式の両辺を加えると E(Var(XG))+Var(E(XG))=E(X2)(E(X))2=Var(X) \begin{align*} E \left( \operatorname{Var}(X | \mathcal{G} ) \right) + \operatorname{Var}(E(X | \mathcal{G})) =& E \left( X^2 \right) - \left( E (X ) \right)^2 \\ =& \operatorname{Var}(X) \end{align*}