測度論で定義される条件付き分散
📂確率論測度論で定義される条件付き分散
定義
確率空間 (Ω,F,P) とサブシグマフィールド G⊂F が与えられているとし、X と Y が確率変数だとする。
以下の定義された Var を G が与えられた時の X の分散という。
Var(X∣G):=E[(X−E(X∣G))2∣G]
- G がF のサブシグマフィールドであるとは、両方とも Ω の シグマフィールドで、G⊂F であることを意味する。
定理
- [1]: Var(X∣G)=E(X2∣G)−[E(X∣G)]2
- 2: Var(X)=E(Var(X∣G))+Var(E(X∣G))
説明
元々平均よりも分散が難しく、条件付きは紛らわしいものだが、幸いにも測度論が導入された後は、基本的な道具を使用するよりも式展開が簡単になる。
覚えておくべきは、条件付きかどうかに関わらず、これまで気軽に使ってきた分散の性質が保持されることと、∣G を忘れてはいけないことだ。時々、混乱して E[(X−E(X∣G))2] こんなことを書いてしまうかもしれないが、これは G の下でのみ計算され、E[(X−E(X∣G))2] はどこからともなく全体の F から計算してしまうと、どうにもこうにもならないゴミ値になる。
- V(E(X∣G))=V(X)−E(V(X∣G))
期待値と分散の概念が必ずしもそうであるわけではないが、一般的に統計学で関心を持つパラメータは母平均 μ であり、分散は、私たちがどのような推定量 X を打ったとき、それが実際の母平均とどれだけ違うかを示す尺度―リスクと見ることができる。ここで、シグマフィールド G は、確率変数 X に対して与えられた何か情報のセットと考えることができ、E(V(X∣G))≥0 であるため、V(E(X∣G)) は元の V(X) のリスクが情報 G が与えられたことで減少したと考えることができる。これは、より多くの情報が与えられるほど、予測が正確になるという直感と一致する。
証明
[1]
戦略: 証明方法自体は条件がない場合と同じくらい単純だが、この証明プロセスは非常に重要だ。途中で見ることになる E(X∣G) は、条件付き期待値の定義に従って G-可測である。E(X∣G) は確率変数でありながらG-可測であるということは、G が与えられている場合、その情報をすべて知っているので、実質的には確定された値のスカラー μ=E(X∣G) として扱われるということである。
スムージング性質: X が G-可測なら
E(XY∣G)=XE(Y∣G) a.s.
E(X∣G) は G-可測であるため、スムージング性質によって
E[(X−E(X∣G))2∣G]====E[X2−2XE(X∣G)+(E(X∣G))2∣G]E(X2∣G)−2E[XE(X∣G)∣G]+E[(E(X∣G))2∣G]E(X2∣G)−2E(X∣G)E[X∣G]+(E(X∣G))2E(X2∣G)−(E(X∣G))2
■
条件付き期待値の性質: すべてのシグマフィールド G について
E[E(X∣G)]=E(X)
E(Var(X∣G)===E(E(X2∣G)−(E(X∣G))2)E(X2−(E(X∣G))2)E(X2)−E(E(X∣G)2)
[1]によって
Var(E(X∣G))==E(E(X∣G)2)−E(E(X∣G))2E(E(X∣G)2)−(E(X))2
得られた式の両辺を加えると
E(Var(X∣G))+Var(E(X∣G))==E(X2)−(E(X))2Var(X)
■