logo

多変量正規分布の条件付き平均と分散 📂確率分布論

多変量正規分布の条件付き平均と分散

数式

二変量正規分布

$$ \left( X, Y \right) \sim N_{2} \left( \begin{bmatrix} \mu_{1} \\ \mu_{n} \end{bmatrix} , \begin{bmatrix} \sigma_{X}^{2} & \rho \sigma_{X} \sigma_{Y} \\ \rho \sigma_{X} \sigma_{Y} & \sigma_{Y}^{2} \end{bmatrix} \right) $$

ランダムベクトル $\left( X,Y \right)$ が上記のように二変量正規分布に従う場合、$X | Y$ は 一変量正規分布に従い、条件付き平均と分散は以下のとおりである。 $$ \begin{align*} E \left( X | Y \right) =& \mu_{X} + \rho {{ \sigma_{X} } \over { \sigma_{Y} }} \left( Y - \mu_{Y} \right) \\ \operatorname{Var} \left( X | Y \right) =& \left( 1 - \rho^{2} \right) \sigma_{X}^{2} \end{align*} $$

多変量正規分布 1

$$ \begin{align*} \mathbf{X} =& \begin{bmatrix} \mathbf{X}_{1} \\ \mathbf{X}_{2} \end{bmatrix} & : \Omega \to \mathbb{R}^{n} \\ \mu =& \begin{bmatrix} \mu_{1} \\ \mu_{2} \end{bmatrix} & \in \mathbb{R}^{n} \\ \Sigma =& \begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} & \in \mathbb{R}^{n \times n} \end{align*} $$ 上記のように ジョーダンブロック形式で表された$\mathbf{X}$、$\mu$、$\Sigma$ に従う 多変量正規分布ランダムベクトル $\mathbf{X} \sim N_{n} \left( \mu , \Sigma \right)$ が与えられるとする。すると、条件付き確率ベクトル $\mathbf{X}_{1} | \mathbf{X}_{2} : \Omega \to \mathbb{R}^{m}$ も引き続き多変量正規分布に従い、具体的には次のような 平均ベクトルと共分散行列を持つ。 $$ \mathbf{X}_{1} | \mathbf{X}_{2} \sim N_{m} \left( \mu_{1} + \Sigma_{12} \Sigma_{22}^{-1} \left( \mathbf{X}_{2} - \mu_{2} \right) , \Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} \right) $$

導出

簡単で複雑で特別な導出

行列代数に慣れていない子供たちは、二変量正規分布も難しいだろう。次の導出プロセスは、高校を卒業した人でも追うことができるレベルで簡単だが、展開自体は複雑で、二変量正規分布の平均と分散に止まる。

$$ f(x,y) = {{ 1 } \over { 2 \pi \sigma_{X} \sigma_{Y} \sqrt{1 - \rho^{2}} }} \exp \left[ - {{ 1 } \over { 2 \left( 1 - \rho^{2} \right) }} \left[ \left( {{ x - \mu_{X} } \over { \sigma_{X} }} \right)^{2} + \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right)^{2}- 2 \rho {{ \left( x - \mu_{X} \right) \left( y - \mu_{Y} \right) } \over { \sigma_{X} \sigma_{Y} }} \right] \right] $$ 二変量正規分布の確率密度関数は、次のとおりである。

$$ \begin{align*} & f \left( x | y \right) \\ =& {{ f \left( x , y \right) } \over { f_{Y}(y) }} \\ =& {{ {{ 1 } \over { 2 \pi \sigma_{X} \sigma_{Y} \sqrt{1 - \rho^{2}} }} e^{\left[ - {{ 1 } \over { 2 \left( 1 - \rho^{2} \right) }} \left[ \left( {{ x - \mu_{X} } \over { \sigma_{X} }} \right)^{2} + \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right)^{2}- 2 \rho {{ \left( x - \mu_{X} \right) \left( y - \mu_{Y} \right) } \over { \sigma_{X} \sigma_{Y} }} \right] \right]} } \over { {{ 1 } \over { \sqrt{2 \pi} \sigma_{Y} }} e^{ \left[ - {{ 1 } \over { 2 }} \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right)^{2} \right] } }} \\ =& {{ 1 } \over { \sqrt{2 \pi} \sigma_{X} \sqrt{1 - \rho^{2}} }} {{ e^{\left[ - {{ 1 } \over { 2 \left( 1 - \rho^{2} \right) }} \left[ \left( {{ x - \mu_{X} } \over { \sigma_{X} }} \right)^{2} + \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right)^{2}- 2 \rho {{ \left( x - \mu_{X} \right) \left( y - \mu_{Y} \right) } \over { \sigma_{X} \sigma_{Y} }} \right] \right]} } \over { e^{\left[ - {{ 1 - \rho^{2} } \over { 2 \left( 1 - \rho^{2} \right) }} \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right)^{2} \right]} }} \\ =& {{ 1 } \over { \sqrt{2 \pi} \sigma_{X} \sqrt{1 - \rho^{2}} }} \exp \left[ - {{ 1 } \over { 2 \left( 1 - \rho^{2} \right) }} \left[ \left( {{ x - \mu_{X} } \over { \sigma_{X} }} \right)^{2} + \rho^{2} \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right)^{2}- 2 \rho {{ \left( x - \mu_{X} \right) \left( y - \mu_{Y} \right) } \over { \sigma_{X} \sigma_{Y} }} \right] \right] \\ =& {{ 1 } \over { \sqrt{2 \pi} \sigma_{X} \sqrt{1 - \rho^{2}} }} \exp \left[ - {{ 1 } \over { 2 \left( 1 - \rho^{2} \right) }} \left[ \left( {{ x - \mu_{X} } \over { \sigma_{X} }} \right) - \rho \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right) \right]^{2} \right] \\ =& {{ 1 } \over { \sqrt{2 \pi} \sigma_{X} \sqrt{1 - \rho^{2}} }} \exp \left[ - {{ 1 } \over { 2 \sigma_{X}^{2} \left( 1 - \rho^{2} \right) }} \left[ x - \mu_{X} - \rho \sigma_{X} \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right) \right]^{2} \right] \\ =& {{ 1 } \over { \sqrt{2 \pi} \sigma_{X} \sqrt{1 - \rho^{2}} }} \exp \left[ - {{ 1 } \over { 2 \sigma_{X}^{2} \left( 1 - \rho^{2} \right) }} \left[ x - \mu_{X} - \rho {{ \sigma_{X} } \over { \sigma_{Y} }} \left( y - \mu_{Y} \right) \right]^{2} \right] \end{align*} $$

これは平均が $\mu_{X} + \rho {{ \sigma_{X} } \over { \sigma_{Y} }} \left( Y - \mu_{Y} \right)$ で分散が $\left( 1 - \rho^{2} \right) \sigma_{X}^{2}$ の 一変量正規分布確率密度関数と同じである。

難しくて単純で一般的な導出

$\mathbf{W} := \mathbf{X}_{1} - \Sigma_{12} \Sigma_{22}^{-1} \mathbf{X}_{2}$ であり、$p := (m - n) \in \mathbb{N}$ とする。その場合、単位行列 $I_{k} \in \mathbb{R}^{k \times k}$ と ゼロ行列 $O \in \mathbb{R}^{p \times m}$ について、次のように表すことができる。 $$ \begin{bmatrix} \mathbf{W} \\ \mathbf{X}_{2} \end{bmatrix} = \begin{bmatrix} I_{m} & - \Sigma_{12} \Sigma_{22}^{-1} \\ O & I_{p} \end{bmatrix} \begin{bmatrix} \mathbf{X}_{1} \\ \mathbf{X}_{2} \end{bmatrix} $$

線形変換の正規性: 行列 $A \in \mathbb{R}^{m \times n}$ と ベクトル $\mathbf{b} \in \mathbb{R}^{m}$ に対して、多変量正規分布に従う ランダムベクトル $\mathbf{X} \sim N_{n} \left( \mu , \Sigma \right)$ の 線形変換 $\mathbf{Y} = A \mathbf{X} + \mathbf{b}$ も依然として多変量正規分布 $N_{m} \left( A \mu + \mathbf{b} , A \Sigma A^{T} \right)$ に従う。

$\mathbf{W}$ は多変量正規分布の線形変換であるため、平均ベクトル $$ E \mathbf{W} = \mu_{1} - \Sigma_{12} \Sigma_{22}^{-1} \mu_{2} $$ と $A = \Sigma_{12} \Sigma_{22}^{-1}$ に対して、次のような 共分散行列を持つ。 $$ \begin{align*} \operatorname{Cov} \mathbf{X} =& A \Sigma A^{T} \\ =& \begin{bmatrix} I_{m} & - \Sigma_{12} \Sigma_{22}^{-1} \\ O & I_{p} \end{bmatrix} \begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} \begin{bmatrix} I_{m} & O^{T} \\ - \Sigma_{22}^{-1} \Sigma_{21} & I_{p} \end{bmatrix} \\ =& \begin{bmatrix} \Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} & O^{T} \\ O & \Sigma_{22} \end{bmatrix} \\ \implies \operatorname{Cov} \mathbf{W} =& \Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} \end{align*} $$ ここで、$A^{T}$ は $A$ の転置である。

独立とゼロ共分散の同値性: 多変量正規分布に従う $\left( \mathbf{X}_{1} , \mathbf{X}_{2} \right) \sim N_{n} \left( \mu , \Sigma \right)$ が与えられているとする。 $$ \mathbf{X}_{1} \perp \mathbf{X}_{2} \iff \Sigma_{12} = \Sigma_{21} = O $$

$\mathbf{X}$ が多変量正規分布に従うため、ゼロ共分散 $\operatorname{Cov} \left( \mathbf{W} , \mathbf{X}_{2} \right) = O$ は $\mathbf{W}$ と $\mathbf{X}_{2}$ が独立であることを保証する。したがって、$\mathbf{W} | \mathbf{X}_{2}$ は条件なしの $\mathbf{W}$ そのものであり、 $$ \mathbf{W} | \mathbf{X}_{2} \sim N_{m} \left( \mu_{1} - \Sigma_{12} \Sigma_{22}^{-1} \mu_{2} , \Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} \right) $$ のように表すことができる。初めに $\mathbf{W}$ が $\mathbf{X}_{1} = \mathbf{W} + \Sigma_{12} \Sigma_{22}^{-1} \mathbf{X}_{2}$ を満たすように定義されたので、逆変換で戻すと次を得る。 $$ \mathbf{X}_{1} | \mathbf{X}_{2} \sim N_{m} \left( \mu_{1} + \Sigma_{12} \Sigma_{22}^{-1} \left( \mathbf{X}_{2} - \mu_{2} \right) , \Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} \right) $$


  1. Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p185. ↩︎