数理統計学における条件付き確率分布
定義1
離散確率ベクトル $(X, Y)$に対して、$p_{X, Y}$を$(X, Y)$の結合確率質量関数とする。$p_{X}$を$X$の周辺確率質量関数とする。このとき、次のような$p_{Y | X}$を、$Y = y$が与えられたときの$X$の条件付き確率質量関数conditional probability mass functionと呼ぶ。 $$ p_{Y | X} (y | x) = \dfrac{p_{X, Y}(x, y)}{p_{X}(x)} $$
連続確率ベクトル $(X, Y)$に対して、$f_{X, Y}$を$(X, Y)$の結合確率密度関数とする。$f_{X}$を$Y$の周辺確率密度関数とする。このとき、次のような$f_{Y | X}$を、$Y = y$が与えられたときの$X$の条件付き確率密度関数conditional probability density functionと呼ぶ。
$$ f_{Y | X} (y | x) = \dfrac{f_{X, Y}(x, y)}{f_{X}(x)} $$
一般化
離散確率ベクトル$(X_{1}, \dots, X_{n})$に対して、$p_{1, \dots, n}$を$(X_{1}, \dots, X_{n})$の結合確率質量関数とする。$p_{1, \dots, n-1}$を$X_{1}, \dots, X_{n-1}$の結合確率質量関数とする。このとき、次のような$p_{n | 1, \dots, n-1}$を、$X_{1} = x_{1}, \dots, X_{n-1} = x_{n-1}$が与えられたときの$X_{n}$の条件付き確率質量関数と呼ぶ。 $$ \begin{equation} p_{n | 1, \dots, n-1} (x_{n} | x_{1}, \dots, x_{n-1}) = \dfrac{p_{1, \dots, n}(x_{1}, \dots, x_{n})}{p_{1, \dots, n-1}(x_{1}, \dots, x_{n-1})} \end{equation} $$
連続確率ベクトル$(X_{1}, \dots, X_{n})$に対して、$f_{1, \dots, n}$を$(X_{1}, \dots, X_{n})$の結合確率密度関数とする。$f_{1, \dots, n-1}$を$X_{1}, \dots, X_{n-1}$の結合確率密度関数とする。このとき、次のような$f_{n | 1, \dots, n-1}$を、$X_{1} = x_{1}, \dots, X_{n-1} = x_{n-1}$が与えられたときの$X_{n}$の条件付き確率密度関数と呼ぶ。 $$ \begin{equation} f_{n | 1, \dots, n-1} (x_{n} | x_{1}, \dots, x_{n-1}) = \dfrac{f_{1, \dots, n}(x_{1}, \dots, x_{n})}{f_{1, \dots, n-1}(x_{1}, \dots, x_{n-1})} \end{equation} $$
離散確率ベクトル$(X_{1}, \dots, X_{n})$に対して、次の$p_{2, \cdots , n | 1}$を、$X_{1} = x_{1}$が与えられたときの$ X_{2}, \cdots , X_{n}$の結合条件付き確率質量関数joint conditional probability mass functionと呼ぶ。 $$ \begin{equation} p_{2, \cdots , n | 1} ( x_{2} , \cdots ,x_{n} | x_{1} ) = {{ p_{1, \cdots , n}(x_{1} , x_{2} , \cdots , x_{n}) } \over { p_{1}( x_{1} ) }} \end{equation} $$
連続確率ベクトル$(X_{1}, \dots, X_{n})$に対して、次の$f_{2, \cdots , n | 1}$を、$X_{1} = x_{1}$が与えられたときの$ X_{2}, \cdots , X_{n}$の結合条件付き確率密度関数joint conditional probability density functionと呼ぶ。 $$ \begin{equation} f_{2, \cdots , n | 1} ( x_{2} , \cdots ,x_{n} | x_{1} ) = {{ f_{1, \cdots , n}(x_{1} , x_{2} , \cdots , x_{n}) } \over { f_{1}( x_{1} ) }} \end{equation} $$
期待値
- $X_{2} , \cdots , X_{n}$に関する関数$u$が与えられたとき、次を$X_{1} = x_{1}$が与えられたときの$u( X_{2}, \cdots , X_{n} )$の条件付き期待値と呼ぶ。 $$ \begin{align*} & E \left[ u \left( X_{2} , \cdots , X_{n} \right) | x_{1} \right] \\ =& \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} u (x_{2} , \cdots , x_{n}) f_{2 , \cdots , n | 1} (x_{2} , \cdots, x_{n} | x_{1}) dx_{2} \cdots , dx_{n} \end{align*} $$
定理
[1] 便宜のために下付き文字を省略して$p(x_{n} | x_{1}, \dots, x_{n-1}) = p_{n | 1, \dots, n-1} (x_{n} | x_{1}, \dots, x_{n-1})$、$p(x_{1}, \dots, x_{n}) = p_{1, \dots, n}(x_{1}, \dots, x_{n})$と表記しよう。以下が成立する。 $$ p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}, x_{1}) \cdots p(x_{n} | x_{1}, \dots, x_{n-1}) $$ または $$ p(x_{1}, \dots, x_{n}) = p(x_{n}) p(x_{n-1} | x_{n}) p(x_{n-2} | x_{n-1}, x_{n}) \cdots p(x_{1} | x_{2}, \dots, x_{n}) $$
- [1-1] もし$\left\{ X_{t} \right\}$がマルコフ連鎖であれば、以下が成立する。 $$ \begin{align*} p(x_{1}, \dots, x_{n}) &= p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}) \cdots p(x_{n} | x_{n-1}) \\ &= p(x_{1}) \prod_{t=2}^{n} p(x_{t} | x_{t-1}) \end{align*} $$ さらに以下が成立する。 $$ p(x_{2}, \dots, x_{n} | x_{1}) = \prod_{t=2}^{n} p(x_{t} | x_{t-1}) $$
[2] $p(x_{1}, x_{2} | x_{3}, x_{4}) = p(x_{1} | x_{2}, x_{3}, x_{4}) p(x_{2} | x_{3}, x_{4})$または $$ p(x_{1} | x_{2}, x_{3}, x_{4}) = \dfrac{p(x_{1}, x_{2} | x_{3}, x_{4})}{p(x_{2} | x_{3}, x_{4})} $$
[3] 条件付き分散: $$ \begin{align*} \Var (X_{2} | X_{1} = x_{1}) =& E \left[ \left( X_{2} - E (X_{2} | X_{1} = x_{1}) \right)^{2} | X_{1} = x_{1} \right] \\ =& E \left( X_{2}^{2} | X_{1} = x_{1} \right) - \left[ E(X_{2} | X_{1} = x_{1}) \right]^{2} \end{align*} $$
[4]: $E \left[ E (X_{2} | X_{1}) \right] = E (X_{2} )$
[5]: $\Var(X_{2})$が存在する場合、$\Var \left[ E \left( X_{2} | X_{1} \right) \right] \le \Var (X_{2})$
説明
条件付き確率、条件付き期待値は、カリキュラムレベルではそうであったように、数理統計学でも最も計算が難しい部分の一つに属する。ほかのことはさておき、多変量である以上、どうしても計算が多くなりがちである。もちろん条件付きという概念には価値がある。それに対して、高々微積分に依存している数理統計学とは異なり、測度論に基づく確率論に発展すると、その計算は一層簡潔になる。要点は「無視はせず、過度に執着しないこと」である。
$(3)$と$(4)$は、$(1)$、$(2)$を繰り返し適用すると得られる。
証明
[1]
$(1)$から分母を移動させると次が得られる。
$$ p(x_{1}, \dots, x_{n-1})p(x_{n} | x_{1}, \dots, x_{n-1}) = p(x_{1}, \dots, x_{n}) $$ $$ \begin{equation} \implies p(x_{1}, \dots, x_{n}) = p(x_{1}, \dots, x_{n-1})p(x_{n} | x_{1}, \dots, x_{n-1}) \end{equation} $$
$(5)$を再度$p(x_{1}, \dots, x_{n-1})$に適用すると次が得られる。
$$ \begin{align*} &p(x_{1}, \dots, x_{n}) \\ &= \big[ p(x_{1}, \dots, x_{n-2}) p(x_{n-1} | x_{1}, \dots, x_{n-2}) \big] p(x_{n} | x_{1}, \dots, x_{n-1}) \end{align*} $$
$p(x_{1}, \dots, x_{n-2})$に$(5)$を再適用すると次が得られる。
$$ \begin{align*} &p(x_{1}, \dots, x_{n}) \\ &= \big[ p(x_{1}, \dots, x_{n-3}) p(x_{n-2} | x_{1}, \dots, x_{n-3}) \big] p(x_{n-1} | x_{1}, \dots, x_{n-2}) p(x_{n} | x_{1}, \dots, x_{n-1}) \end{align*} $$
繰り返すと、最終的に次が得られる。
$$ p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}, x_{1}) \cdots p(x_{n} | x_{1}, \dots, x_{n-1}) $$
もし$\left\{ X_{t} \right\}$がマルコフ連鎖であれば、$p(x_{n} | x_{n-1}, \dots, x_{1}) = p(x_{n} | x_{n-1})$が成立するため、次の式が得られる。
$$ p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}) \cdots p(x_{n} | x_{n-1}) = p(x_{1}) \prod_{t=2}^{n} p(x_{t} | x_{t-1}) $$
一方、$(3)$により、$p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2}, \dots, x_{n} | x_{1})$であるため、上記の式と比較して次の結果を得ることができる。
$$ p(x_{1}, \dots, x_{n}) = p(x_{1}) \prod_{t=2}^{n} p(x_{t} | x_{t-1}) = p(x_{1}) p(x_{2}, \dots, x_{n} | x_{1}) $$ $$ \implies p(x_{2}, \dots, x_{n} | x_{1}) = \prod_{t=2}^{n} p(x_{t} | x_{t-1}) $$
また、条件付き確率の定義からインデックスを逆順に適用すると次が得られる。
$$ \begin{align*} p(x_{1}, \dots, x_{n}) &= p(x_{2}, \dots, x_{n}) p(x_{1} | x_{2}, \dots, x_{n}) \\ &= p(x_{3}, \dots, x_{n}) p(x_{2} | x_{3}, \dots, x_{n}) p(x_{1} | x_{2}, \dots, x_{n}) \\ &= \vdots \\ &= p(x_{n}) p(x_{n-1} | x_{n}) p(x_{n-2} | x_{n-1}, x_{n}) \cdots p(x_{1} | x_{2}, \dots, x_{n}) \end{align*} $$
■
[2]
$$ \begin{align*} p(x_{1}, x_{2} | x_{3}, x_{4}) &= \dfrac{p(x_{1}, x_{2}, x_{3}, x_{4})}{p(x_{3}, x_{4})} \\ &= \dfrac{p(x_{1}, x_{2}, x_{3}, x_{4})}{p(x_{3}, x_{4})} \dfrac{p(x_{2}, x_{3}, x_{4})}{p(x_{2}, x_{3}, x_{4})} \\ &= \dfrac{p(x_{1}, x_{2}, x_{3}, x_{4})}{p(x_{2}, x_{3}, x_{4})} \dfrac{p(x_{2}, x_{3}, x_{4})}{p(x_{3}, x_{4})} \\ &= p(x_{1} | x_{2}, x_{3}, x_{4}) p(x_{2} | x_{3}, x_{4}) \end{align*} $$
■
参照
Hogg et al. (2018). Introduction to Mathematical Statistcs(8th Edition): p109~111, p136~137. ↩︎