数理統計学における条件付き確率分布
📂数理統計学数理統計学における条件付き確率分布
定義
離散確率ベクトル (X,Y)に対して、pX,Yを(X,Y)の結合確率質量関数とする。pXをXの周辺確率質量関数とする。このとき、次のようなpY∣Xを、Y=yが与えられたときのXの条件付き確率質量関数conditional probability mass functionと呼ぶ。
pY∣X(y∣x)=pX(x)pX,Y(x,y)
連続確率ベクトル (X,Y)に対して、fX,Yを(X,Y)の結合確率密度関数とする。fXをYの周辺確率密度関数とする。このとき、次のようなfY∣Xを、Y=yが与えられたときのXの条件付き確率密度関数conditional probability density functionと呼ぶ。
fY∣X(y∣x)=fX(x)fX,Y(x,y)
一般化
離散確率ベクトル(X1,…,Xn)に対して、p1,…,nを(X1,…,Xn)の結合確率質量関数とする。p1,…,n−1をX1,…,Xn−1の結合確率質量関数とする。このとき、次のようなpn∣1,…,n−1を、X1=x1,…,Xn−1=xn−1が与えられたときのXnの条件付き確率質量関数と呼ぶ。
pn∣1,…,n−1(xn∣x1,…,xn−1)=p1,…,n−1(x1,…,xn−1)p1,…,n(x1,…,xn)
連続確率ベクトル(X1,…,Xn)に対して、f1,…,nを(X1,…,Xn)の結合確率密度関数とする。f1,…,n−1をX1,…,Xn−1の結合確率密度関数とする。このとき、次のようなfn∣1,…,n−1を、X1=x1,…,Xn−1=xn−1が与えられたときのXnの条件付き確率密度関数と呼ぶ。
fn∣1,…,n−1(xn∣x1,…,xn−1)=f1,…,n−1(x1,…,xn−1)f1,…,n(x1,…,xn)
離散確率ベクトル(X1,…,Xn)に対して、次のp2,⋯,n∣1を、X1=x1が与えられたときのX2,⋯,Xnの結合条件付き確率質量関数joint conditional probability mass functionと呼ぶ。
p2,⋯,n∣1(x2,⋯,xn∣x1)=p1(x1)p1,⋯,n(x1,x2,⋯,xn)
連続確率ベクトル(X1,…,Xn)に対して、次のf2,⋯,n∣1を、X1=x1が与えられたときのX2,⋯,Xnの結合条件付き確率密度関数joint conditional probability density functionと呼ぶ。
f2,⋯,n∣1(x2,⋯,xn∣x1)=f1(x1)f1,⋯,n(x1,x2,⋯,xn)
期待値
- X2,⋯,Xnに関する関数uが与えられたとき、次をX1=x1が与えられたときのu(X2,⋯,Xn)の条件付き期待値と呼ぶ。
=E[u(X2,⋯,Xn)∣x1]∫−∞∞⋯∫−∞∞u(x2,⋯,xn)f2,⋯,n∣1(x2,⋯,xn∣x1)dx2⋯,dxn
定理
[1] 便宜のために下付き文字を省略してp(xn∣x1,…,xn−1)=pn∣1,…,n−1(xn∣x1,…,xn−1)、p(x1,…,xn)=p1,…,n(x1,…,xn)と表記しよう。以下が成立する。
p(x1,…,xn)=p(x1)p(x2∣x1)p(x3∣x2,x1)⋯p(xn∣x1,…,xn−1)
または
p(x1,…,xn)=p(xn)p(xn−1∣xn)p(xn−2∣xn−1,xn)⋯p(x1∣x2,…,xn)
- [1-1] もし{Xt}がマルコフ連鎖であれば、以下が成立する。
p(x1,…,xn)=p(x1)p(x2∣x1)p(x3∣x2)⋯p(xn∣xn−1)=p(x1)t=2∏np(xt∣xt−1)
さらに以下が成立する。
p(x2,…,xn∣x1)=t=2∏np(xt∣xt−1)
[2] p(x1,x2∣x3,x4)=p(x1∣x2,x3,x4)p(x2∣x3,x4)または
p(x1∣x2,x3,x4)=p(x2∣x3,x4)p(x1,x2∣x3,x4)
[3] 条件付き分散:
Var(X2∣X1=x1)==E[(X2−E(X2∣X1=x1))2∣X1=x1]E(X22∣X1=x1)−[E(X2∣X1=x1)]2
[4]: E[E(X2∣X1)]=E(X2)
[5]: Var(X2)が存在する場合、Var[E(X2∣X1)]≤Var(X2)
説明
条件付き確率、条件付き期待値は、カリキュラムレベルではそうであったように、数理統計学でも最も計算が難しい部分の一つに属する。ほかのことはさておき、多変量である以上、どうしても計算が多くなりがちである。もちろん条件付きという概念には価値がある。それに対して、高々微積分に依存している数理統計学とは異なり、測度論に基づく確率論に発展すると、その計算は一層簡潔になる。要点は「無視はせず、過度に執着しないこと」である。
(3)と(4)は、(1)、(2)を繰り返し適用すると得られる。
証明
[1]
(1)から分母を移動させると次が得られる。
p(x1,…,xn−1)p(xn∣x1,…,xn−1)=p(x1,…,xn)
⟹p(x1,…,xn)=p(x1,…,xn−1)p(xn∣x1,…,xn−1)
(5)を再度p(x1,…,xn−1)に適用すると次が得られる。
p(x1,…,xn)=[p(x1,…,xn−2)p(xn−1∣x1,…,xn−2)]p(xn∣x1,…,xn−1)
p(x1,…,xn−2)に(5)を再適用すると次が得られる。
p(x1,…,xn)=[p(x1,…,xn−3)p(xn−2∣x1,…,xn−3)]p(xn−1∣x1,…,xn−2)p(xn∣x1,…,xn−1)
繰り返すと、最終的に次が得られる。
p(x1,…,xn)=p(x1)p(x2∣x1)p(x3∣x2,x1)⋯p(xn∣x1,…,xn−1)
もし{Xt}がマルコフ連鎖であれば、p(xn∣xn−1,…,x1)=p(xn∣xn−1)が成立するため、次の式が得られる。
p(x1,…,xn)=p(x1)p(x2∣x1)p(x3∣x2)⋯p(xn∣xn−1)=p(x1)t=2∏np(xt∣xt−1)
一方、(3)により、p(x1,…,xn)=p(x1)p(x2,…,xn∣x1)であるため、上記の式と比較して次の結果を得ることができる。
p(x1,…,xn)=p(x1)t=2∏np(xt∣xt−1)=p(x1)p(x2,…,xn∣x1)
⟹p(x2,…,xn∣x1)=t=2∏np(xt∣xt−1)
また、条件付き確率の定義からインデックスを逆順に適用すると次が得られる。
p(x1,…,xn)=p(x2,…,xn)p(x1∣x2,…,xn)=p(x3,…,xn)p(x2∣x3,…,xn)p(x1∣x2,…,xn)=⋮=p(xn)p(xn−1∣xn)p(xn−2∣xn−1,xn)⋯p(x1∣x2,…,xn)
■
[2]
p(x1,x2∣x3,x4)=p(x3,x4)p(x1,x2,x3,x4)=p(x3,x4)p(x1,x2,x3,x4)p(x2,x3,x4)p(x2,x3,x4)=p(x2,x3,x4)p(x1,x2,x3,x4)p(x3,x4)p(x2,x3,x4)=p(x1∣x2,x3,x4)p(x2∣x3,x4)
■
参照