logo

数理統計学における条件付き確率分布 📂数理統計学

数理統計学における条件付き確率分布

定義1

  1. 離散確率ベクトル (X,Y)(X, Y)に対して、pX,Yp_{X, Y}(X,Y)(X, Y)結合確率質量関数とする。pXp_{X}XX周辺確率質量関数とする。このとき、次のようなpYXp_{Y | X}を、Y=yY = yが与えられたときのXX条件付き確率質量関数conditional probability mass functionと呼ぶ。 pYX(yx)=pX,Y(x,y)pX(x) p_{Y | X} (y | x) = \dfrac{p_{X, Y}(x, y)}{p_{X}(x)}

  2. 連続確率ベクトル (X,Y)(X, Y)に対して、fX,Yf_{X, Y}(X,Y)(X, Y)結合確率密度関数とする。fXf_{X}YY周辺確率密度関数とする。このとき、次のようなfYXf_{Y | X}を、Y=yY = yが与えられたときのXX条件付き確率密度関数conditional probability density functionと呼ぶ。

fYX(yx)=fX,Y(x,y)fX(x) f_{Y | X} (y | x) = \dfrac{f_{X, Y}(x, y)}{f_{X}(x)}

一般化

  1. 離散確率ベクトル(X1,,Xn)(X_{1}, \dots, X_{n})に対して、p1,,np_{1, \dots, n}(X1,,Xn)(X_{1}, \dots, X_{n})の結合確率質量関数とする。p1,,n1p_{1, \dots, n-1}X1,,Xn1X_{1}, \dots, X_{n-1}の結合確率質量関数とする。このとき、次のようなpn1,,n1p_{n | 1, \dots, n-1}を、X1=x1,,Xn1=xn1X_{1} = x_{1}, \dots, X_{n-1} = x_{n-1}が与えられたときのXnX_{n}条件付き確率質量関数と呼ぶ。 pn1,,n1(xnx1,,xn1)=p1,,n(x1,,xn)p1,,n1(x1,,xn1) \begin{equation} p_{n | 1, \dots, n-1} (x_{n} | x_{1}, \dots, x_{n-1}) = \dfrac{p_{1, \dots, n}(x_{1}, \dots, x_{n})}{p_{1, \dots, n-1}(x_{1}, \dots, x_{n-1})} \end{equation}

  2. 連続確率ベクトル(X1,,Xn)(X_{1}, \dots, X_{n})に対して、f1,,nf_{1, \dots, n}(X1,,Xn)(X_{1}, \dots, X_{n})の結合確率密度関数とする。f1,,n1f_{1, \dots, n-1}X1,,Xn1X_{1}, \dots, X_{n-1}の結合確率密度関数とする。このとき、次のようなfn1,,n1f_{n | 1, \dots, n-1}を、X1=x1,,Xn1=xn1X_{1} = x_{1}, \dots, X_{n-1} = x_{n-1}が与えられたときのXnX_{n}条件付き確率密度関数と呼ぶ。 fn1,,n1(xnx1,,xn1)=f1,,n(x1,,xn)f1,,n1(x1,,xn1) \begin{equation} f_{n | 1, \dots, n-1} (x_{n} | x_{1}, \dots, x_{n-1}) = \dfrac{f_{1, \dots, n}(x_{1}, \dots, x_{n})}{f_{1, \dots, n-1}(x_{1}, \dots, x_{n-1})} \end{equation}

  3. 離散確率ベクトル(X1,,Xn)(X_{1}, \dots, X_{n})に対して、次のp2,,n1p_{2, \cdots , n | 1}を、X1=x1X_{1} = x_{1}が与えられたときのX2,,Xn X_{2}, \cdots , X_{n}結合条件付き確率質量関数joint conditional probability mass functionと呼ぶ。 p2,,n1(x2,,xnx1)=p1,,n(x1,x2,,xn)p1(x1) \begin{equation} p_{2, \cdots , n | 1} ( x_{2} , \cdots ,x_{n} | x_{1} ) = {{ p_{1, \cdots , n}(x_{1} , x_{2} , \cdots , x_{n}) } \over { p_{1}( x_{1} ) }} \end{equation}

  4. 連続確率ベクトル(X1,,Xn)(X_{1}, \dots, X_{n})に対して、次のf2,,n1f_{2, \cdots , n | 1}を、X1=x1X_{1} = x_{1}が与えられたときのX2,,Xn X_{2}, \cdots , X_{n}結合条件付き確率密度関数joint conditional probability density functionと呼ぶ。 f2,,n1(x2,,xnx1)=f1,,n(x1,x2,,xn)f1(x1) \begin{equation} f_{2, \cdots , n | 1} ( x_{2} , \cdots ,x_{n} | x_{1} ) = {{ f_{1, \cdots , n}(x_{1} , x_{2} , \cdots , x_{n}) } \over { f_{1}( x_{1} ) }} \end{equation}

期待値

  1. X2,,XnX_{2} , \cdots , X_{n}に関する関数uuが与えられたとき、次をX1=x1X_{1} = x_{1}が与えられたときのu(X2,,Xn)u( X_{2}, \cdots , X_{n} )条件付き期待値と呼ぶ。 E[u(X2,,Xn)x1]=u(x2,,xn)f2,,n1(x2,,xnx1)dx2,dxn \begin{align*} & E \left[ u \left( X_{2} , \cdots , X_{n} \right) | x_{1} \right] \\ =& \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} u (x_{2} , \cdots , x_{n}) f_{2 , \cdots , n | 1} (x_{2} , \cdots, x_{n} | x_{1}) dx_{2} \cdots , dx_{n} \end{align*}

定理

  • [1] 便宜のために下付き文字を省略してp(xnx1,,xn1)=pn1,,n1(xnx1,,xn1)p(x_{n} | x_{1}, \dots, x_{n-1}) = p_{n | 1, \dots, n-1} (x_{n} | x_{1}, \dots, x_{n-1})p(x1,,xn)=p1,,n(x1,,xn)p(x_{1}, \dots, x_{n}) = p_{1, \dots, n}(x_{1}, \dots, x_{n})と表記しよう。以下が成立する。 p(x1,,xn)=p(x1)p(x2x1)p(x3x2,x1)p(xnx1,,xn1) p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}, x_{1}) \cdots p(x_{n} | x_{1}, \dots, x_{n-1}) または p(x1,,xn)=p(xn)p(xn1xn)p(xn2xn1,xn)p(x1x2,,xn) p(x_{1}, \dots, x_{n}) = p(x_{n}) p(x_{n-1} | x_{n}) p(x_{n-2} | x_{n-1}, x_{n}) \cdots p(x_{1} | x_{2}, \dots, x_{n})

    • [1-1] もし{Xt}\left\{ X_{t} \right\}マルコフ連鎖であれば、以下が成立する。 p(x1,,xn)=p(x1)p(x2x1)p(x3x2)p(xnxn1)=p(x1)t=2np(xtxt1) \begin{align*} p(x_{1}, \dots, x_{n}) &= p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}) \cdots p(x_{n} | x_{n-1}) \\ &= p(x_{1}) \prod_{t=2}^{n} p(x_{t} | x_{t-1}) \end{align*} さらに以下が成立する。 p(x2,,xnx1)=t=2np(xtxt1) p(x_{2}, \dots, x_{n} | x_{1}) = \prod_{t=2}^{n} p(x_{t} | x_{t-1})
  • [2] p(x1,x2x3,x4)=p(x1x2,x3,x4)p(x2x3,x4)p(x_{1}, x_{2} | x_{3}, x_{4}) = p(x_{1} | x_{2}, x_{3}, x_{4}) p(x_{2} | x_{3}, x_{4})または p(x1x2,x3,x4)=p(x1,x2x3,x4)p(x2x3,x4) p(x_{1} | x_{2}, x_{3}, x_{4}) = \dfrac{p(x_{1}, x_{2} | x_{3}, x_{4})}{p(x_{2} | x_{3}, x_{4})}

  • [3] 条件付き分散: Var(X2X1=x1)=E[(X2E(X2X1=x1))2X1=x1]=E(X22X1=x1)[E(X2X1=x1)]2 \begin{align*} \Var (X_{2} | X_{1} = x_{1}) =& E \left[ \left( X_{2} - E (X_{2} | X_{1} = x_{1}) \right)^{2} | X_{1} = x_{1} \right] \\ =& E \left( X_{2}^{2} | X_{1} = x_{1} \right) - \left[ E(X_{2} | X_{1} = x_{1}) \right]^{2} \end{align*}

  • [4]: E[E(X2X1)]=E(X2)E \left[ E (X_{2} | X_{1}) \right] = E (X_{2} )

  • [5]: Var(X2)\Var(X_{2})が存在する場合、Var[E(X2X1)]Var(X2)\Var \left[ E \left( X_{2} | X_{1} \right) \right] \le \Var (X_{2})

説明

条件付き確率、条件付き期待値は、カリキュラムレベルではそうであったように、数理統計学でも最も計算が難しい部分の一つに属する。ほかのことはさておき、多変量である以上、どうしても計算が多くなりがちである。もちろん条件付きという概念には価値がある。それに対して、高々微積分に依存している数理統計学とは異なり、測度論に基づく確率論に発展すると、その計算は一層簡潔になる。要点は「無視はせず、過度に執着しないこと」である。

(3)(3)(4)(4)は、(1)(1)(2)(2)を繰り返し適用すると得られる。

証明

[1]

(1)(1)から分母を移動させると次が得られる。

p(x1,,xn1)p(xnx1,,xn1)=p(x1,,xn) p(x_{1}, \dots, x_{n-1})p(x_{n} | x_{1}, \dots, x_{n-1}) = p(x_{1}, \dots, x_{n})     p(x1,,xn)=p(x1,,xn1)p(xnx1,,xn1) \begin{equation} \implies p(x_{1}, \dots, x_{n}) = p(x_{1}, \dots, x_{n-1})p(x_{n} | x_{1}, \dots, x_{n-1}) \end{equation}

(5)(5)を再度p(x1,,xn1)p(x_{1}, \dots, x_{n-1})に適用すると次が得られる。

p(x1,,xn)=[p(x1,,xn2)p(xn1x1,,xn2)]p(xnx1,,xn1) \begin{align*} &p(x_{1}, \dots, x_{n}) \\ &= \big[ p(x_{1}, \dots, x_{n-2}) p(x_{n-1} | x_{1}, \dots, x_{n-2}) \big] p(x_{n} | x_{1}, \dots, x_{n-1}) \end{align*}

p(x1,,xn2)p(x_{1}, \dots, x_{n-2})(5)(5)を再適用すると次が得られる。

p(x1,,xn)=[p(x1,,xn3)p(xn2x1,,xn3)]p(xn1x1,,xn2)p(xnx1,,xn1) \begin{align*} &p(x_{1}, \dots, x_{n}) \\ &= \big[ p(x_{1}, \dots, x_{n-3}) p(x_{n-2} | x_{1}, \dots, x_{n-3}) \big] p(x_{n-1} | x_{1}, \dots, x_{n-2}) p(x_{n} | x_{1}, \dots, x_{n-1}) \end{align*}

繰り返すと、最終的に次が得られる。

p(x1,,xn)=p(x1)p(x2x1)p(x3x2,x1)p(xnx1,,xn1) p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}, x_{1}) \cdots p(x_{n} | x_{1}, \dots, x_{n-1})

もし{Xt}\left\{ X_{t} \right\}マルコフ連鎖であれば、p(xnxn1,,x1)=p(xnxn1)p(x_{n} | x_{n-1}, \dots, x_{1}) = p(x_{n} | x_{n-1})が成立するため、次の式が得られる。

p(x1,,xn)=p(x1)p(x2x1)p(x3x2)p(xnxn1)=p(x1)t=2np(xtxt1) p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}) \cdots p(x_{n} | x_{n-1}) = p(x_{1}) \prod_{t=2}^{n} p(x_{t} | x_{t-1})

一方、(3)(3)により、p(x1,,xn)=p(x1)p(x2,,xnx1)p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2}, \dots, x_{n} | x_{1})であるため、上記の式と比較して次の結果を得ることができる。

p(x1,,xn)=p(x1)t=2np(xtxt1)=p(x1)p(x2,,xnx1) p(x_{1}, \dots, x_{n}) = p(x_{1}) \prod_{t=2}^{n} p(x_{t} | x_{t-1}) = p(x_{1}) p(x_{2}, \dots, x_{n} | x_{1})     p(x2,,xnx1)=t=2np(xtxt1) \implies p(x_{2}, \dots, x_{n} | x_{1}) = \prod_{t=2}^{n} p(x_{t} | x_{t-1})

また、条件付き確率の定義からインデックスを逆順に適用すると次が得られる。

p(x1,,xn)=p(x2,,xn)p(x1x2,,xn)=p(x3,,xn)p(x2x3,,xn)p(x1x2,,xn)==p(xn)p(xn1xn)p(xn2xn1,xn)p(x1x2,,xn) \begin{align*} p(x_{1}, \dots, x_{n}) &= p(x_{2}, \dots, x_{n}) p(x_{1} | x_{2}, \dots, x_{n}) \\ &= p(x_{3}, \dots, x_{n}) p(x_{2} | x_{3}, \dots, x_{n}) p(x_{1} | x_{2}, \dots, x_{n}) \\ &= \vdots \\ &= p(x_{n}) p(x_{n-1} | x_{n}) p(x_{n-2} | x_{n-1}, x_{n}) \cdots p(x_{1} | x_{2}, \dots, x_{n}) \end{align*}

[2]

p(x1,x2x3,x4)=p(x1,x2,x3,x4)p(x3,x4)=p(x1,x2,x3,x4)p(x3,x4)p(x2,x3,x4)p(x2,x3,x4)=p(x1,x2,x3,x4)p(x2,x3,x4)p(x2,x3,x4)p(x3,x4)=p(x1x2,x3,x4)p(x2x3,x4) \begin{align*} p(x_{1}, x_{2} | x_{3}, x_{4}) &= \dfrac{p(x_{1}, x_{2}, x_{3}, x_{4})}{p(x_{3}, x_{4})} \\ &= \dfrac{p(x_{1}, x_{2}, x_{3}, x_{4})}{p(x_{3}, x_{4})} \dfrac{p(x_{2}, x_{3}, x_{4})}{p(x_{2}, x_{3}, x_{4})} \\ &= \dfrac{p(x_{1}, x_{2}, x_{3}, x_{4})}{p(x_{2}, x_{3}, x_{4})} \dfrac{p(x_{2}, x_{3}, x_{4})}{p(x_{3}, x_{4})} \\ &= p(x_{1} | x_{2}, x_{3}, x_{4}) p(x_{2} | x_{3}, x_{4}) \end{align*}

参照


  1. Hogg et al. (2018). Introduction to Mathematical Statistcs(8th Edition): p109~111, p136~137. ↩︎