条件付き期待値の性質
📂確率論 条件付き期待値の性質 定理 確率空間 ( Ω , F , P ) ( \Omega , \mathcal{F} , P) ( Ω , F , P ) が与えられているとする。
[1] 測度論での定理: 可測関数 f f f , g g g が F \mathcal{F} F -可測であれば、g = h ( f ) g = h (f) g = h ( f ) を満たすボレル関数 h : R → R h : \mathbb{R} \to \mathbb{R} h : R → R が存在する。 [2] 確率論での応用: 確率変数 X X X , Y Y Y が σ ( X ) \sigma (X) σ ( X ) -可測であれば、E ( Y ∣ X ) = h ( X ) E(Y | X) = h(X) E ( Y ∣ X ) = h ( X ) を満たすボレル関数 h : R → R h : \mathbb{R} \to \mathbb{R} h : R → R が存在する。 [3]: X X X が F \mathcal{F} F -可測であれば E ( X ∣ F ) = X a.s. E(X|\mathcal{F}) =X \text{ a.s.} E ( X ∣ F ) = X a.s. [4]: シグマ場 G = { ∅ , Ω } \mathcal{G} = \left\{ \emptyset , \Omega \right\} G = { ∅ , Ω } に対して E ( X ∣ G ) = E ( X ) a.s. E(X|\mathcal{G}) = E(X) \text{ a.s.} E ( X ∣ G ) = E ( X ) a.s. [5]: 定数 c c c と全てのシグマ場 G \mathcal{G} G に対して E ( c ∣ F ) = c a.s. E(c|\mathcal{F}) = c \text{ a.s.} E ( c ∣ F ) = c a.s. [6]: 定数 c c c に対して E ( c X ∣ G ) = c E ( X ∣ G ) a.s. E(cX | \mathcal{G}) = c E(X | \mathcal{G}) \text{ a.s.} E ( c X ∣ G ) = c E ( X ∣ G ) a.s. [7]: E ( X + Y ∣ G ) = E ( X ∣ G ) + E ( Y ∣ G ) a.s. E(X+Y | \mathcal{G}) = E(X | \mathcal{G}) + E(Y| \mathcal{G}) \text{ a.s.} E ( X + Y ∣ G ) = E ( X ∣ G ) + E ( Y ∣ G ) a.s. [8]: X ≥ 0 a.s. X \ge 0 \text{ a.s.} X ≥ 0 a.s. であれば E ( X ∣ G ) ≥ 0 a.s. E(X | \mathcal{G}) \ge 0 \text{ a.s.} E ( X ∣ G ) ≥ 0 a.s. [9]: X ≥ Y a.s. X \ge Y \text{ a.s.} X ≥ Y a.s. であれば E ( X ∣ G ) ≥ E ( Y ∣ G ) a.s. E(X | \mathcal{G}) \ge E(Y | \mathcal{G}) \text{ a.s.} E ( X ∣ G ) ≥ E ( Y ∣ G ) a.s. [10]: ∣ E ( X ∣ G ) ∣ ≤ E ( ∣ X ∣ ∣ G ) a.s. \left| E( X | \mathcal{G} ) \right| \le E ( | X | | \mathcal{G} ) \text{ a.s.} ∣ E ( X ∣ G ) ∣ ≤ E ( ∣ X ∣∣ G ) a.s. [11]: 全てのシグマ場 G \mathcal{G} G に対して E [ E ( X ∣ G ) ] = E ( X ) E \left[ E ( X | \mathcal{G} ) \right] = E(X) E [ E ( X ∣ G ) ] = E ( X ) σ ( X ) = { X − 1 ( B ) : B ∈ B ( R ) } \sigma (X) = \left\{ X^{-1} (B) : B \in \mathcal{B}(\mathbb{R}) \right\} σ ( X ) = { X − 1 ( B ) : B ∈ B ( R ) } は確率変数 X X X によって生成される Ω \Omega Ω の最小のシグマ場 を表す。これについて E ( Y ∣ σ ( X ) ) = E ( Y ∣ X ) E(Y|\sigma (X)) = E(Y|X) E ( Y ∣ σ ( X )) = E ( Y ∣ X ) のように表記できる。Z Z Z が F \mathcal{F} F -可測関数であることは、全てのボレル集合 B ∈ B ( R ) B \in \mathcal{B}(\mathbb{R}) B ∈ B ( R ) に対して Z − 1 ( B ) ∈ F Z^{-1} (B) \in \mathcal{F} Z − 1 ( B ) ∈ F という意味である。ボレル関数とは、全てのボレル集合 B ∈ B ( R ) B \in \mathcal{B}(\mathbb{R}) B ∈ B ( R ) に対して f − 1 ( B ) f^{-1} (B) f − 1 ( B ) もボレル集合である関数 f : R → R f : \mathbb{R} \to \mathbb{R} f : R → R を指す。 説明 [1],[2]: これらの二つの定理は、X X X に関する Y Y Y の条件付き期待値 が X X X に依存するある関数として表されることを示している。特に、X X X の値が与えられた場合は、E ( Y ∣ X = a ) = h ( a ) E(Y | X = a) = h(a) E ( Y ∣ X = a ) = h ( a ) のように表される。[2]は[1]の系として、これにより、基本的な確率論でも日常的に使用される期待値の性質がほとんど確実に 保証される。 線形性 [5]~[7]: E ( a X + b ∣ G ) = a E ( X ∣ G ) + b E(aX + b | \mathcal{G}) = aE(X | \mathcal{G}) + b E ( a X + b ∣ G ) = a E ( X ∣ G ) + b : 期待値の線形性 は、条件付きであっても保持される。 シグマ場は情報である [3] E ( X ∣ F ) = X E(X | \mathcal{F}) = X E ( X ∣ F ) = X : 式の意味を考えると、確率変数 X X X が F \mathcal{F} F -可測であることは、シグマ場 F \mathcal{F} F が X X X の全ての情報を持っていることを意味する。逆に考えると、そのために可測と呼ぶのである。したがって、E ( X ∣ F ) E(X|\mathcal{F}) E ( X ∣ F ) はいかなる妨害もなく X X X をそのまま把握できる。F \mathcal{F} F 上で全ての情報が与えられた X X X は、わざわざ E E E で計算する必要はない。次の例を考えてみよう:6面のサイコロを振って、目ごとに1ドルもらうゲームをするとき、もらえるお金の期待値は3.5ドルである。これを計算する理由は、実際にサイコロの目が何になるかわからないからである。しかし、サイコロを振る前に私の頭の中にシグマ場 F \mathcal{F} F が正確に与えられるならば、サイコロの目 X X X を正確に測定できるため、正確に何ドルもらえるかがわかる。毎回3.5ドルを支払うとしても、勝つゲームはして、負けるゲームはしなければそれでよい。この意味で、乱数ハッキング は、シグマ場(乱数表)を盗んで、本来ランダムであるべきものを決定的にする攻撃技術に相当する。これが成功すれば、銀行のセキュリティカードやOTPなど、乱数に依存する暗号システムが破られる。 一方、σ ( X ) \sigma (X) σ ( X ) は X X X の全ての情報を持ちながら最小のシグマ場として定義されているので、当
然 E ( X ∣ σ ( X ) ) = X E(X| \sigma (X)) = X E ( X ∣ σ ( X )) = X である。これは上で紹介した表記に従って、E ( X ∣ X ) = X E(X|X) = X E ( X ∣ X ) = X のようである。
[4] E ( X ∣ G ) = E ( X ) E(X|\mathcal{G}) = E(X) E ( X ∣ G ) = E ( X ) : 式の意味を考えると、トリビアルなシグマ場 G = { ∅ , Ω } \mathcal{G} = \left\{ \emptyset , \Omega \right\} G = { ∅ , Ω } は X X X に関してどのような情報も与えないため、途方に暮れて確率空間 Ω \Omega Ω 全体を探して ∫ Ω X d P \displaystyle \int_{\Omega} X d P ∫ Ω X d P を計算するしかない。 [10] ∣ E ( X ∣ G ) ∣ ≤ E ( ∣ X ∣ ∣ G ) \left| E( X | \mathcal{G} ) \right| \le E ( | X | | \mathcal{G} ) ∣ E ( X ∣ G ) ∣ ≤ E ( ∣ X ∣∣ G ) : 絶対値の性質により
− E ( ∣ X ∣ ∣ G ) ≤ E ( X ∣ G ) ≤ E ( ∣ X ∣ ∣ G )
- E ( | X | | \mathcal{G} ) \le E( X | \mathcal{G} ) \le E ( | X | | \mathcal{G} )
− E ( ∣ X ∣∣ G ) ≤ E ( X ∣ G ) ≤ E ( ∣ X ∣∣ G ) [11] E [ E ( X ∣ G ) ] = E ( X ) E \left[ E ( X | \mathcal{G} ) \right] = E(X) E [ E ( X ∣ G ) ] = E ( X ) : 確率論の様々な証明で有用に使用される等式で、主に E ( X ) E(X) E ( X ) は直接計算が難しいが、何らかの G \mathcal{G} G が与えられると E ( X ∣ G ) E(X|\mathcal{G}) E ( X ∣ G ) が計算しやすくなる場合にトリックとして使用される。 証明 [1] h : R → R h : \mathbb{R} \to \mathbb{R} h : R → R を z ∈ R z \in \mathbb{R} z ∈ R に対して h ( z ) : = ( g ∘ f − 1 ( { z } ) ) h(z) := \left( g \circ f^{-1} ( \left\{ z \right\} ) \right) h ( z ) := ( g ∘ f − 1 ( { z } ) ) のように定義する。
{ z } ∈ B ( R ) \left\{ z \right\} \in \mathcal{B}(\mathbb{R}) { z } ∈ B ( R ) の場合、f f f は F \mathcal{F} F -可測なので、f − 1 ( { z } ) ∈ F f^{-1}(\left\{ z \right\}) \in \mathcal{F} f − 1 ( { z } ) ∈ F であり、g g g も F \mathcal{F} F -可測なので、h h h はよく定義され、g ( ω ) = ( h ∘ f ) ( ω ) g (\omega) = ( h \circ f ) ( \omega ) g ( ω ) = ( h ∘ f ) ( ω ) を満たす。
全てのボレル集合 B ∈ B ( R ) B \in \mathcal{B}(\mathbb{R}) B ∈ B ( R ) に対して
h − 1 ( B ) = ( f ∘ g − 1 ) ( B ) = f ( g − 1 ( B ) )
h^{-1}(B) = (f \circ g^{-1})(B) = f \left( g^{-1} (B) \right)
h − 1 ( B ) = ( f ∘ g − 1 ) ( B ) = f ( g − 1 ( B ) )
を考えると、g − 1 ( B ) ∈ F g^{-1} (B) \in \mathcal{F} g − 1 ( B ) ∈ F なので f ( g − 1 ( B ) ) ∈ B ( R ) f(g^{-1} (B) ) \in \mathcal{B}(\mathbb{R}) f ( g − 1 ( B )) ∈ B ( R ) である。全ての B ∈ B ( R ) B \in \mathcal{B}(\mathbb{R}) B ∈ B ( R ) に対して h − 1 ( B ) ∈ B ( R ) h^{-1}(B) \in \mathcal{B}(\mathbb{R}) h − 1 ( B ) ∈ B ( R ) なので、h h h はボレル関数である。
■
[2] E ( Y ∣ X ) = E ( Y ∣ σ ( X ) ) E ( Y | X ) = E ( Y | \sigma (X) ) E ( Y ∣ X ) = E ( Y ∣ σ ( X )) は条件付き期待値 の定義により σ ( X ) \sigma (X) σ ( X ) -可測な確率変数であり、X X X も σ ( X ) \sigma (X) σ ( X ) の定義に従って明らかに σ ( X ) \sigma (X) σ ( X ) -可測な確率変数である。したがって、[1]により F = σ ( X ) \mathcal{F} = \sigma (X) F = σ ( X ) とし、
f = X g = E ( Y ∣ X )
f = X
\\ g = E ( Y | X )
f = X g = E ( Y ∣ X )
とすると、E ( Y ∣ X ) = h ( X ) E(Y|X) = h(X) E ( Y ∣ X ) = h ( X ) を満たすボレル関数 h : R → R h : \mathbb{R} \to \mathbb{R} h : R → R が存在する。
■
戦略 [3]~[7]: 積分形に変換して展開し、定積分が同じであることを示した後、次の定理を適用する。元々特別な名前はないが、この投稿でのみルベーグ積分の補題 と命名することにする。
ルベーグ積分の性質
∀ A ∈ F , ∫ A f d m = 0 ⟺ f = 0 a.e.
\forall A \in \mathcal{F}, \int_{A} f dm = 0 \iff f = 0 \text{ a.e.}
∀ A ∈ F , ∫ A fd m = 0 ⟺ f = 0 a.e.
[3] 全ての A ∈ F A \in \mathcal{F} A ∈ F に対して ∫ A X d P = ∫ A X d P \displaystyle \int_{A} X dP = \int_{A} X dP ∫ A X d P = ∫ A X d P を満たす X X X が一意に存在するので、条件付き期待値 の定義により、X = E ( X ∣ F ) X = E(X| \mathcal{F}) X = E ( X ∣ F ) は F \mathcal{F} F に対する X X X の条件付き期待値である。したがって、全ての A ∈ F A \in \mathcal{F} A ∈ F に対して
∫ A E ( X ∣ F ) d P = ∫ A X d P
\int_{A} E(X |\mathcal{F}) dP = \int_{A} X dP
∫ A E ( X ∣ F ) d P = ∫ A X d P
となり、ルベーグ積分の補題により X = E ( X ∣ F ) a.s. X = E(X |\mathcal{F}) \text{ a.s.} X = E ( X ∣ F ) a.s.
■
[4] 条件付き期待値の定義により、∫ A E ( X ∣ G ) d P = ∫ A X d P \displaystyle \int_{A} E(X |\mathcal{G}) dP = \int_{A} X dP ∫ A E ( X ∣ G ) d P = ∫ A X d P である。
ケース 1. A = ∅ A = \emptyset A = ∅
0 = ∫ ∅ E ( X ∣ G ) d P = ∫ ∅ X d P = 0
0 = \int_{\emptyset} E(X |\mathcal{G}) dP = \int_{\emptyset} X dP = 0
0 = ∫ ∅ E ( X ∣ G ) d P = ∫ ∅ X d P = 0
ケース 2. A = Ω A = \Omega A = Ω
∫ Ω E ( X ∣ G ) d P = ∫ Ω X d P = E ( X ) = E ( X ) P ( Ω ) = E ( X ) ∫ Ω 1 d P = ∫ Ω E ( X ) d P
\int_{\Omega} E(X |\mathcal{G}) dP = \int_{\Omega} X dP = E(X) = E(X) P(\Omega) = E(X) \int_{\Omega} 1 dP = \int_{\Omega} E(X) dP
∫ Ω E ( X ∣ G ) d P = ∫ Ω X d P = E ( X ) = E ( X ) P ( Ω ) = E ( X ) ∫ Ω 1 d P = ∫ Ω E ( X ) d P
したがって、どちらの場合も、ルベーグ積分の補題により X = E ( X ∣ G ) a.s. X = E(X |\mathcal{G}) \text{ a.s.} X = E ( X ∣ G ) a.s.
■
[5] c ∈ G c \in \mathcal{G} c ∈ G であり、E ( c ∣ G ) ∈ G E(c | \mathcal{G}) \in \mathcal{G} E ( c ∣ G ) ∈ G なので、条件付き期待値の定義により、全ての A ∈ G A \in \mathcal{G} A ∈ G に対して
∫ A E ( c ∣ G ) d P = ∫ A X d P
\int_{A} E(c |\mathcal{G}) dP = \int_{A} X dP
∫ A E ( c ∣ G ) d P = ∫ A X d P
となり、したがってルベーグ積分の補題により c = E ( c ∣ G ) a.s. c = E(c | \mathcal{G}) \text{ a.s.} c = E ( c ∣ G ) a.s.
■
[6] 条件付き期待値の定義とルベーグ積分の線形性により、全ての A ∈ G A \in \mathcal{G} A ∈ G に対して
∫ A E ( c X ∣ G ) d P = ∫ A c X d P = c ∫ A X d P = c ∫ A E ( X ∣ G ) d P = ∫ A c E ( X ∣ G ) d P
\begin{align*}
\int_{A} E( cX |\mathcal{G}) dP =& \int_{A} cX dP
\\ =& c \int_{A} X dP
\\ =& c \int_{A} E(X|\mathcal{G}) dP
\\ =& \int_{A} c E(X|\mathcal{G}) dP
\end{align*}
∫ A E ( c X ∣ G ) d P = = = = ∫ A c X d P c ∫ A X d P c ∫ A E ( X ∣ G ) d P ∫ A c E ( X ∣ G ) d P
となり、ルベーグ積分の補題により E ( c X ∣ G ) = c E ( X ∣ G ) d P a.s. E( cX |\mathcal{G}) = c E(X|\mathcal{G}) dP \text{ a.s.} E ( c X ∣ G ) = c E ( X ∣ G ) d P a.s.
■
[7] 条件付き期待値の定義とルベーグ積分の線形性により、全ての A ∈ G A \in \mathcal{G} A ∈ G に対して
∫ A E ( X + Y ∣ G ) d P = ∫ A ( X + Y ) d P = ∫ A X d P + ∫ A Y d P = ∫ A E ( X ∣ G ) d P + ∫ A E ( Y ∣ G ) d P = ∫ A [ E ( X ∣ G ) + E ( Y ∣ G ) ] d P
\begin{align*}
\int_{A} E( X+Y |\mathcal{G}) dP =& \int_{A} (X+Y) dP
\\ =& \int_{A} X dP +\int_{A} Y dP
\\ =& \int_{A} E(X|\mathcal{G}) dP + \int_{A} E(Y|\mathcal{G}) dP
\\ =& \int_{A} \left[ E(X|\mathcal{G}) + E(Y|\mathcal{G}) \right] dP
\end{align*}
∫ A E ( X + Y ∣ G ) d P = = = = ∫ A ( X + Y ) d P ∫ A X d P + ∫ A Y d P ∫ A E ( X ∣ G ) d P + ∫ A E ( Y ∣ G ) d P ∫ A [ E ( X ∣ G ) + E ( Y ∣ G ) ] d P
となり、ルベーグ積分の補題により
E ( X + Y ∣ G ) = E ( X ∣ G ) + E ( Y ∣ G ) d P a.s.
E( X +Y |\mathcal{G}) = E(X|\mathcal{G}) + E(Y|\mathcal{G}) dP \text{ a.s.}
E ( X + Y ∣ G ) = E ( X ∣ G ) + E ( Y ∣ G ) d P a.s.
■
[8] E ( X ∣ G ) < 0 E( X |\mathcal{G}) < 0 E ( X ∣ G ) < 0 と仮定すると
∫ A E ( X ∣ G ) d P = ∫ A X d P ≥ ∫ A 0 d P = 0
\begin{align*}
\int_{A} E( X |\mathcal{G}) dP =& \int_{A} X dP
\\ \ge& \int_{A} 0 dP
\\ =& 0
\end{align*}
∫ A E ( X ∣ G ) d P = ≥ = ∫ A X d P ∫ A 0 d P 0
となるため、矛盾が生じる。したがって、E ( X ∣ G ) ≥ 0 a.s. E( X |\mathcal{G}) \ge 0 \text{ a.s.} E ( X ∣ G ) ≥ 0 a.s. でなければならない。
■
[9] Z : = X − Y ≥ 0 Z := X - Y \ge 0 Z := X − Y ≥ 0 とすると、[8] により
E ( X − Y ∣ G ) ≥ 0
E(X-Y | \mathcal{G}) \ge 0
E ( X − Y ∣ G ) ≥ 0
となり、条件付き期待値の線形性により
E ( X ∣ G ) − E ( Y ∣ G ) ≥ 0 a.s.
E(X| \mathcal{G}) - E(Y | \mathcal{G}) \ge 0 \text{ a.s.}
E ( X ∣ G ) − E ( Y ∣ G ) ≥ 0 a.s.
■
[10] パート 1. X ≥ 0 X \ge 0 X ≥ 0
X ≥ 0 X \ge 0 X ≥ 0 の場合、∣ X ∣ = X |X| = X ∣ X ∣ = X となるため
E ( ∣ X ∣ ∣ G ) = E ( X ∣ G )
E( |X| |\mathcal{G}) = E(X|\mathcal{G})
E ( ∣ X ∣∣ G ) = E ( X ∣ G )
[8]により E ( X ∣ G ) ≥ 0 E(X|\mathcal{G}) \ge 0 E ( X ∣ G ) ≥ 0 となるため、同様に E ( X ∣ G ) = ∣ E ( X ∣ G ) ∣ E(X|\mathcal{G}) = \left| E(X|\mathcal{G}) \right| E ( X ∣ G ) = ∣ E ( X ∣ G ) ∣ となり
E ( ∣ X ∣ ∣ G ) = E ( X ∣ G ) = ∣ E ( X ∣ G ) ∣
E( |X| |\mathcal{G}) = E(X|\mathcal{G}) = \left| E(X|\mathcal{G}) \right|
E ( ∣ X ∣∣ G ) = E ( X ∣ G ) = ∣ E ( X ∣ G ) ∣
パート 2. X < 0 X < 0 X < 0
[6]により
E ( ∣ X ∣ ∣ G ) = E ( − X ∣ G ) = − E ( X ∣ G ) = ∣ E ( X ∣ G ) ∣
E( |X| |\mathcal{G}) = E( -X |\mathcal{G}) = - E(X |\mathcal{G}) = \left| E(X|\mathcal{G}) \right|
E ( ∣ X ∣∣ G ) = E ( − X ∣ G ) = − E ( X ∣ G ) = ∣ E ( X ∣ G ) ∣
パート 3. X = X + − X − X = X^{+} - X^{-} X = X + − X −
三角不等式により
∣ E ( X ∣ G ) ∣ ≤ ∣ E ( X + ∣ G ) ∣ + ∣ E ( X − ∣ G ) ∣
\left| E(X|\mathcal{G}) \right| \le \left| E( X^{+} |\mathcal{G}) \right| + \left| E( X^{-} |\mathcal{G}) \right|
∣ E ( X ∣ G ) ∣ ≤ E ( X + ∣ G ) + E ( X − ∣ G )
X + , X − ≥ 0 X^{+} , X^{-} \ge 0 X + , X − ≥ 0 であるため、パート 1により
∣ E ( X ∣ G ) ∣ ≤ E ( ∣ X + ∣ ∣ G ) + E ( ∣ X − ∣ ∣ G )
\left| E(X|\mathcal{G}) \right| \le E( \left| X^{+} \right| |\mathcal{G}) + E( \left| X^{-} \right| | \mathcal{G})
∣ E ( X ∣ G ) ∣ ≤ E ( X + ∣ G ) + E ( X − ∣ G )
[7]と絶対値の表示 ∣ f ∣ = ∣ f + ∣ + ∣ f − ∣ |f| = |f^{+}| + |f^{-}| ∣ f ∣ = ∣ f + ∣ + ∣ f − ∣ により
∣ E ( X ∣ G ) ∣ ≤ E ( ∣ X + ∣ + ∣ X − ∣ ∣ G ) = E ( ∣ X ∣ ∣ G ) a.s.
\begin{align*}
\left| E(X|\mathcal{G}) \right| \le & E( \left| X^{+} \right| + \left| X^{-} \right| | \mathcal{G})
\\ =& E( \left| X \right| | \mathcal{G}) \text{ a.s.}
\end{align*}
∣ E ( X ∣ G ) ∣ ≤ = E ( X + + X − ∣ G ) E ( ∣ X ∣ ∣ G ) a.s.
■
[11] E [ E ( X ∣ G ) ] = ∫ Ω E ( X ∣ G ) d P = ∫ Ω X d P = E ( X )
\begin{align*}
E \left[ E( X | \mathcal{G} ) \right] =& \int_{\Omega} E ( X | \mathcal{G} ) d P
\\ =& \int_{\Omega} X d P
\\ =& E(X)
\end{align*}
E [ E ( X ∣ G ) ] = = = ∫ Ω E ( X ∣ G ) d P ∫ Ω X d P E ( X )
■