다변량정규분포의 조건부 평균과 분산
공식
이변량정규분포
$$ \left( X, Y \right) \sim N_{2} \left( \begin{bmatrix} \mu_{1} \\ \mu_{n} \end{bmatrix} , \begin{bmatrix} \sigma_{X}^{2} & \rho \sigma_{X} \sigma_{Y} \\ \rho \sigma_{X} \sigma_{Y} & \sigma_{Y}^{2} \end{bmatrix} \right) $$
랜덤벡터 $\left( X,Y \right)$ 가 위와 같이 이변량정규분포를 따른다고 할 때, $X | Y$ 는 일변량정규분포를 따르며 조건부 평균과 분산은 다음과 같다. $$ \begin{align*} E \left( X | Y \right) =& \mu_{X} + \rho {{ \sigma_{X} } \over { \sigma_{Y} }} \left( Y - \mu_{Y} \right) \\ \operatorname{Var} \left( X | Y \right) =& \left( 1 - \rho^{2} \right) \sigma_{X}^{2} \end{align*} $$
다변량정규분포 1
$$ \begin{align*} \mathbf{X} =& \begin{bmatrix} \mathbf{X}_{1} \\ \mathbf{X}_{2} \end{bmatrix} & : \Omega \to \mathbb{R}^{n} \\ \mu =& \begin{bmatrix} \mu_{1} \\ \mu_{2} \end{bmatrix} & \in \mathbb{R}^{n} \\ \Sigma =& \begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} & \in \mathbb{R}^{n \times n} \end{align*} $$ 위와 같이 조던블럭폼으로 나타낸 $\mathbf{X}$, $\mu$, $\Sigma$ 에 대해 다변량정규분포를 따르는 랜덤벡터 $\mathbf{X} \sim N_{n} \left( \mu , \Sigma \right)$ 가 주어져 있다고 하자. 그러면 조건부확률벡터 $\mathbf{X}_{1} | \mathbf{X}_{2} : \Omega \to \mathbb{R}^{m}$ 는 여전히 다변량정규분포를 따르며, 구체적으로 다음과 같이 모평균 벡터와 모공분산행렬을 가진다. $$ \mathbf{X}_{1} | \mathbf{X}_{2} \sim N_{m} \left( \mu_{1} + \Sigma_{12} \Sigma_{22}^{-1} \left( \mathbf{X}_{2} - \mu_{2} \right) , \Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} \right) $$
유도
쉽고 복잡하고 특수한 유도
행렬대수에 익숙하지 않은 어린이들은 애초에 이변량정규분포 정도도 버거울 것이다. 다음의 유도과정은 고등학교만 졸업해도 따라할 수 있는 수준으로 쉽지만, 전개 자체는 복잡하며 이변량정규분포의 평균분산에 그친다.
$$ f(x,y) = {{ 1 } \over { 2 \pi \sigma_{X} \sigma_{Y} \sqrt{1 - \rho^{2}} }} \exp \left[ - {{ 1 } \over { 2 \left( 1 - \rho^{2} \right) }} \left[ \left( {{ x - \mu_{X} } \over { \sigma_{X} }} \right)^{2} + \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right)^{2}- 2 \rho {{ \left( x - \mu_{X} \right) \left( y - \mu_{Y} \right) } \over { \sigma_{X} \sigma_{Y} }} \right] \right] $$ 이변량정규분포의 확률밀도함수는 위와 같다.
$$ \begin{align*} & f \left( x | y \right) \\ =& {{ f \left( x , y \right) } \over { f_{Y}(y) }} \\ =& {{ {{ 1 } \over { 2 \pi \sigma_{X} \sigma_{Y} \sqrt{1 - \rho^{2}} }} e^{\left[ - {{ 1 } \over { 2 \left( 1 - \rho^{2} \right) }} \left[ \left( {{ x - \mu_{X} } \over { \sigma_{X} }} \right)^{2} + \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right)^{2}- 2 \rho {{ \left( x - \mu_{X} \right) \left( y - \mu_{Y} \right) } \over { \sigma_{X} \sigma_{Y} }} \right] \right]} } \over { {{ 1 } \over { \sqrt{2 \pi} \sigma_{Y} }} e^{ \left[ - {{ 1 } \over { 2 }} \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right)^{2} \right] } }} \\ =& {{ 1 } \over { \sqrt{2 \pi} \sigma_{X} \sqrt{1 - \rho^{2}} }} {{ e^{\left[ - {{ 1 } \over { 2 \left( 1 - \rho^{2} \right) }} \left[ \left( {{ x - \mu_{X} } \over { \sigma_{X} }} \right)^{2} + \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right)^{2}- 2 \rho {{ \left( x - \mu_{X} \right) \left( y - \mu_{Y} \right) } \over { \sigma_{X} \sigma_{Y} }} \right] \right]} } \over { e^{\left[ - {{ 1 - \rho^{2} } \over { 2 \left( 1 - \rho^{2} \right) }} \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right)^{2} \right]} }} \\ =& {{ 1 } \over { \sqrt{2 \pi} \sigma_{X} \sqrt{1 - \rho^{2}} }} \exp \left[ - {{ 1 } \over { 2 \left( 1 - \rho^{2} \right) }} \left[ \left( {{ x - \mu_{X} } \over { \sigma_{X} }} \right)^{2} + \rho^{2} \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right)^{2}- 2 \rho {{ \left( x - \mu_{X} \right) \left( y - \mu_{Y} \right) } \over { \sigma_{X} \sigma_{Y} }} \right] \right] \\ =& {{ 1 } \over { \sqrt{2 \pi} \sigma_{X} \sqrt{1 - \rho^{2}} }} \exp \left[ - {{ 1 } \over { 2 \left( 1 - \rho^{2} \right) }} \left[ \left( {{ x - \mu_{X} } \over { \sigma_{X} }} \right) - \rho \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right) \right]^{2} \right] \\ =& {{ 1 } \over { \sqrt{2 \pi} \sigma_{X} \sqrt{1 - \rho^{2}} }} \exp \left[ - {{ 1 } \over { 2 \sigma_{X}^{2} \left( 1 - \rho^{2} \right) }} \left[ x - \mu_{X} - \rho \sigma_{X} \left( {{ y - \mu_{Y} } \over { \sigma_{Y} }} \right) \right]^{2} \right] \\ =& {{ 1 } \over { \sqrt{2 \pi} \sigma_{X} \sqrt{1 - \rho^{2}} }} \exp \left[ - {{ 1 } \over { 2 \sigma_{X}^{2} \left( 1 - \rho^{2} \right) }} \left[ x - \mu_{X} - \rho {{ \sigma_{X} } \over { \sigma_{Y} }} \left( y - \mu_{Y} \right) \right]^{2} \right] \end{align*} $$
이는 모평균이 $\mu_{X} + \rho {{ \sigma_{X} } \over { \sigma_{Y} }} \left( Y - \mu_{Y} \right)$ 이고 모분산이 $\left( 1 - \rho^{2} \right) \sigma_{X}^{2}$ 인 일변량정규분포의 확률밀도함수와 같다.
어렵고 간단하고 일반적인 유도
$\mathbf{W} := \mathbf{X}_{1} - \Sigma_{12} \Sigma_{22}^{-1} \mathbf{X}_{2}$ 이고 $p := (m - n) \in \mathbb{N}$ 이라고 하자. 그러면 항등행렬 $I_{k} \in \mathbb{R}^{k \times k}$ 과 영행렬 $O \in \mathbb{R}^{p \times m}$ 에 대해 다음과 같이 나타낼 수 있다. $$ \begin{bmatrix} \mathbf{W} \\ \mathbf{X}_{2} \end{bmatrix} = \begin{bmatrix} I_{m} & - \Sigma_{12} \Sigma_{22}^{-1} \\ O & I_{p} \end{bmatrix} \begin{bmatrix} \mathbf{X}_{1} \\ \mathbf{X}_{2} \end{bmatrix} $$
선형변환의 정규성: 행렬 $A \in \mathbb{R}^{m \times n}$ 과 벡터 $\mathbf{b} \in \mathbb{R}^{m}$ 에 대해 다변량정규분포를 따르는 랜덤벡터 $\mathbf{X} \sim N_{n} \left( \mu , \Sigma \right)$ 의 선형변환 $\mathbf{Y} = A \mathbf{X} + \mathbf{b}$ 는 여전히 다변량정규분포 $N_{m} \left( A \mu + \mathbf{b} , A \Sigma A^{T} \right)$ 를 따른다.
$\mathbf{W}$ 는 다변량정규분포의 선형변환이므로 모평균벡터 $$ E \mathbf{W} = \mu_{1} - \Sigma_{12} \Sigma_{22}^{-1} \mu_{2} $$ 과 $A = \Sigma_{12} \Sigma_{22}^{-1}$ 에 대해 다음과 같은 공분산행렬을 가진다. $$ \begin{align*} \operatorname{Cov} \mathbf{X} =& A \Sigma A^{T} \\ =& \begin{bmatrix} I_{m} & - \Sigma_{12} \Sigma_{22}^{-1} \\ O & I_{p} \end{bmatrix} \begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} \begin{bmatrix} I_{m} & O^{T} \\ - \Sigma_{22}^{-1} \Sigma_{21} & I_{p} \end{bmatrix} \\ =& \begin{bmatrix} \Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} & O^{T} \\ O & \Sigma_{22} \end{bmatrix} \\ \implies \operatorname{Cov} \mathbf{W} =& \Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} \end{align*} $$ 여기서 $A^{T}$ 은 $A$ 의 트랜스포즈다.
독립과 제로 공분산의 동치: 다변량 정규분포를 따르는 $\left( \mathbf{X}_{1} , \mathbf{X}_{2} \right) \sim N_{n} \left( \mu , \Sigma \right)$ 가 주어져 있다고 하자. $$ \mathbf{X}_{1} \perp \mathbf{X}_{2} \iff \Sigma_{12} = \Sigma_{21} = O $$
$\mathbf{X}$ 가 다변량정규분포를 따르므로, 제로 공분산 $\operatorname{Cov} \left( \mathbf{W} , \mathbf{X}_{2} \right) = O$ 에서 $\mathbf{W}$ 와 $\mathbf{X}_{2}$ 가 독립임을 보장할 수 있다. 따라서 $\mathbf{W} | \mathbf{X}_{2}$ 는 조건부 없는 $\mathbf{W}$ 그 자체고, $$ \mathbf{W} | \mathbf{X}_{2} \sim N_{m} \left( \mu_{1} - \Sigma_{12} \Sigma_{22}^{-1} \mu_{2} , \Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} \right) $$ 와 같이 나타낼 수 있다. 처음에 $\mathbf{W}$ 가 $\mathbf{X}_{1} = \mathbf{W} + \Sigma_{12} \Sigma_{22}^{-1} \mathbf{X}_{2}$ 를 만족시키게끔 정의되었으므로, 역변환으로 되돌리면 다음을 얻는다. $$ \mathbf{X}_{1} | \mathbf{X}_{2} \sim N_{m} \left( \mu_{1} + \Sigma_{12} \Sigma_{22}^{-1} \left( \mathbf{X}_{2} - \mu_{2} \right) , \Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} \right) $$
■
Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p185. ↩︎