logo

수리통계학에서의 조건부 확률 분포 📂수리통계학

수리통계학에서의 조건부 확률 분포

정의1

  1. 이산 랜덤 벡터 $(X, Y)$에 대해서, $p_{X, Y}$를 $(X, Y)$의 결합 확률질량함수라고 하자. $p_{X}$를 $X$의 주변 확률질량함수라고 하자. 이 때, 다음과 같은 $p_{Y | X}$를, $Y = y$가 주어졌을 때 $X$의 조건부 확률질량함수conditional probability mass function라고 한다. $$ p_{Y | X} (y | x) = \dfrac{p_{X, Y}(x, y)}{p_{X}(x)} $$

  2. 연속 랜덤 벡터 $(X, Y)$에 대해서, $f_{X, Y}$를 $(X, Y)$의 결합 확률밀도함수라고 하자. $f_{X}$를 $Y$의 주변 확률밀도함수라고 하자. 이 때, 다음과 같은 $f_{Y | X}$를, $Y = y$가 주어졌을 때 $X$의 조건부 확률밀도함수conditional probability density function라고 한다.

$$ f_{Y | X} (y | x) = \dfrac{f_{X, Y}(x, y)}{f_{X}(x)} $$

일반화

  1. 이산 랜덤 벡터 $(X_{1}, \dots, X_{n})$에 대해서, $p_{1, \dots, n}$을 $(X_{1}, \dots, X_{n})$의 결합 확률질량함수라고 하자. $p_{1, \dots, n-1}$를 $X_{1}, \dots, X_{n-1}$의 결합 확률질량함수라고 하자. 이 때, 다음과 같은 $p_{n | 1, \dots, n-1}$을, $X_{1} = x_{1}, \dots, X_{n-1} = x_{n-1}$이 주어졌을 때 $X_{n}$의 조건부 확률질량함수라고 한다. $$ \begin{equation} p_{n | 1, \dots, n-1} (x_{n} | x_{1}, \dots, x_{n-1}) = \dfrac{p_{1, \dots, n}(x_{1}, \dots, x_{n})}{p_{1, \dots, n-1}(x_{1}, \dots, x_{n-1})} \end{equation} $$

  2. 연속 랜덤 벡터 $(X_{1}, \dots, X_{n})$에 대해서, $f_{1, \dots, n}$를 $(X_{1}, \dots, X_{n})$의 결합 확률밀도함수라고 하자. $f_{1, \dots, n-1}$를 $X_{1}, \dots, X_{n-1}$의 결합 확률밀도함수라고 하자. 이 때, 다음과 같은 $f_{n | 1, \dots, n-1}$을, $X_{1} = x_{1}, \dots, X_{n-1} = x_{n-1}$이 주어졌을 때 $X_{n}$의 조건부 확률밀도함수라고 한다. $$ \begin{equation} f_{n | 1, \dots, n-1} (x_{n} | x_{1}, \dots, x_{n-1}) = \dfrac{f_{1, \dots, n}(x_{1}, \dots, x_{n})}{f_{1, \dots, n-1}(x_{1}, \dots, x_{n-1})} \end{equation} $$

  3. 이산 랜덤 벡터 $(X_{1}, \dots, X_{n})$에 대해서, 다음의 $p_{2, \cdots , n | 1}$을 $X_{1} = x_{1}$ 이 주어졌을 때의 $ X_{2}, \cdots , X_{n}$ 의 결합 조건부 확률 질량 함수joint conditional probability mass function라고 한다. $$ \begin{equation} p_{2, \cdots , n | 1} ( x_{2} , \cdots ,x_{n} | x_{1} ) = {{ p_{1, \cdots , n}(x_{1} , x_{2} , \cdots , x_{n}) } \over { p_{1}( x_{1} ) }} \end{equation} $$

  4. 연속 랜덤 벡터 $(X_{1}, \dots, X_{n})$에 대해서, 다음의 $f_{2, \cdots , n | 1}$ 를 $X_{1} = x_{1}$ 이 주어졌을 때의 $ X_{2}, \cdots , X_{n}$ 의 결합 조건부 확률 밀도 함수joint conditional probability density function라고 한다. $$ \begin{equation} f_{2, \cdots , n | 1} ( x_{2} , \cdots ,x_{n} | x_{1} ) = {{ f_{1, \cdots , n}(x_{1} , x_{2} , \cdots , x_{n}) } \over { f_{1}( x_{1} ) }} \end{equation} $$

기댓값

  1. $X_{2} , \cdots , X_{n}$ 에 대한 함수 $u$ 가 주어져 있을 때, 다음을 $X_{1} = x_{1}$ 이 주어졌을 때의 $u( X_{2}, \cdots , X_{n} )$ 의 조건부 기대값이라고 한다. $$ \begin{align*} & E \left[ u \left( X_{2} , \cdots , X_{n} \right) | x_{1} \right] \\ =& \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} u (x_{2} , \cdots , x_{n}) f_{2 , \cdots , n | 1} (x_{2} , \cdots, x_{n} | x_{1}) dx_{2} \cdots , dx_{n} \end{align*} $$

정리

  • [1] 편의를 위해 아랫첨자를 생략하여 $p(x_{n} | x_{1}, \dots, x_{n-1}) = p_{n | 1, \dots, n-1} (x_{n} | x_{1}, \dots, x_{n-1})$, $p(x_{1}, \dots, x_{n}) = p_{1, \dots, n}(x_{1}, \dots, x_{n})$이라 표기하자. 다음이 성립한다. 다음이 성립한다. $$ p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}, x_{1}) \cdots p(x_{n} | x_{1}, \dots, x_{n-1}) $$ 혹은 $$ p(x_{1}, \dots, x_{n}) = p(x_{n}) p(x_{n-1} | x_{n}) p(x_{n-2} | x_{n-1}, x_{n}) \cdots p(x_{1} | x_{2}, \dots, x_{n}) $$

    • [1-1] 만약 $\left\{ X_{t} \right\}$가 마코프 체인이라면, 다음이 성립한다. $$ \begin{align*} p(x_{1}, \dots, x_{n}) &= p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}) \cdots p(x_{n} | x_{n-1}) \\ &= p(x_{1}) \prod_{t=2}^{n} p(x_{t} | x_{t-1}) \end{align*} $$ 또한 다음이 성립한다. $$ p(x_{2}, \dots, x_{n} | x_{1}) = \prod_{t=2}^{n} p(x_{t} | x_{t-1}) $$
  • [2] $p(x_{1}, x_{2} | x_{3}, x_{4}) = p(x_{1} | x_{2}, x_{3}, x_{4}) p(x_{2} | x_{3}, x_{4})$ 혹은 $$ p(x_{1} | x_{2}, x_{3}, x_{4}) = \dfrac{p(x_{1}, x_{2} | x_{3}, x_{4})}{p(x_{2} | x_{3}, x_{4})} $$

  • [3] 조건부 분산: $$ \begin{align*} \Var (X_{2} | X_{1} = x_{1}) =& E \left[ \left( X_{2} - E (X_{2} | X_{1} = x_{1}) \right)^{2} | X_{1} = x_{1} \right] \\ =& E \left( X_{2}^{2} | X_{1} = x_{1} \right) - \left[ E(X_{2} | X_{1} = x_{1}) \right]^{2} \end{align*} $$

  • [4]: $E \left[ E (X_{2} | X_{1}) \right] = E (X_{2} )$

  • [5]: $\Var(X_{2})$ 이 존재하면 $\Var \left[ E \left( X_{2} | X_{1} \right) \right] \le \Var (X_{2})$

설명

조건부 확률, 조건부 기대값은 교과과정 수준에서 그랬듯 수리통계학에서도 가장 계산하기 까다로운 파트에 속한다. 다른 건 차치하고서라도 다변량인 이상 아무래도 계산이 많아질 수밖에 없다. 물론 조건부라는 개념은 그럴만한 가치가 있다. 한편 고작해봐야 미적분학에 의존하고 있는 수리통계학과 달리 측도론에 그 기반을 둔 확률론으로 발전하게 되면 그 계산들이 한결 간결해진다. 요지는 ‘무시하지는 말되, 너무 집착하지도 말라’는 것이다.

$(3)$과 $(4)$는 $(1)$, $(2)$를 반복 적용하면 얻을 수 있다.

증명

[1]

$(1)$에서 분모를 옮겨주면 다음을 얻는다.

$$ p(x_{1}, \dots, x_{n-1})p(x_{n} | x_{1}, \dots, x_{n-1}) = p(x_{1}, \dots, x_{n}) $$ $$ \begin{equation} \implies p(x_{1}, \dots, x_{n}) = p(x_{1}, \dots, x_{n-1})p(x_{n} | x_{1}, \dots, x_{n-1}) \end{equation} $$

$(5)$를 다시 $p(x_{1}, \dots, x_{n-1})$에 대해 적용하면 다음을 얻는다.

$$ \begin{align*} &p(x_{1}, \dots, x_{n}) \\ &= \big[ p(x_{1}, \dots, x_{n-2}) p(x_{n-1} | x_{1}, \dots, x_{n-2}) \big] p(x_{n} | x_{1}, \dots, x_{n-1}) \end{align*} $$

$p(x_{1}, \dots, x_{n-2})$에 $(5)$를 다시 적용하면 다음을 얻는다.

$$ \begin{align*} &p(x_{1}, \dots, x_{n}) \\ &= \big[ p(x_{1}, \dots, x_{n-3}) p(x_{n-2} | x_{1}, \dots, x_{n-3}) \big] p(x_{n-1} | x_{1}, \dots, x_{n-2}) p(x_{n} | x_{1}, \dots, x_{n-1}) \end{align*} $$

계속 반복하면 최종적으로 다음을 얻는다.

$$ p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}, x_{1}) \cdots p(x_{n} | x_{1}, \dots, x_{n-1}) $$

만약 $\left\{ X_{t} \right\}$가 마코프 체인이라면, $p(x_{n} | x_{n-1}, \dots, x_{1}) = p(x_{n} | x_{n-1})$이 성립하므로, 아래의 식을 얻는다.

$$ p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}) \cdots p(x_{n} | x_{n-1}) = p(x_{1}) \prod_{t=2}^{n} p(x_{t} | x_{t-1}) $$

한편 $(3)$에 의해, $p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2}, \dots, x_{n} | x_{1})$이므로, 위 식과 비교하여 다음의 결과를를 얻을 수 있다.

$$ p(x_{1}, \dots, x_{n}) = p(x_{1}) \prod_{t=2}^{n} p(x_{t} | x_{t-1}) = p(x_{1}) p(x_{2}, \dots, x_{n} | x_{1}) $$ $$ \implies p(x_{2}, \dots, x_{n} | x_{1}) = \prod_{t=2}^{n} p(x_{t} | x_{t-1}) $$

또한 조건부 확률의 정의에서 인덱스를 역순으로 적용하면 다음을 얻는다.

$$ \begin{align*} p(x_{1}, \dots, x_{n}) &= p(x_{2}, \dots, x_{n}) p(x_{1} | x_{2}, \dots, x_{n}) \\ &= p(x_{3}, \dots, x_{n}) p(x_{2} | x_{3}, \dots, x_{n}) p(x_{1} | x_{2}, \dots, x_{n}) \\ &= \vdots \\ &= p(x_{n}) p(x_{n-1} | x_{n}) p(x_{n-2} | x_{n-1}, x_{n}) \cdots p(x_{1} | x_{2}, \dots, x_{n}) \end{align*} $$

[2]

$$ \begin{align*} p(x_{1}, x_{2} | x_{3}, x_{4}) &= \dfrac{p(x_{1}, x_{2}, x_{3}, x_{4})}{p(x_{3}, x_{4})} \\ &= \dfrac{p(x_{1}, x_{2}, x_{3}, x_{4})}{p(x_{3}, x_{4})} \dfrac{p(x_{2}, x_{3}, x_{4})}{p(x_{2}, x_{3}, x_{4})} \\ &= \dfrac{p(x_{1}, x_{2}, x_{3}, x_{4})}{p(x_{2}, x_{3}, x_{4})} \dfrac{p(x_{2}, x_{3}, x_{4})}{p(x_{3}, x_{4})} \\ &= p(x_{1} | x_{2}, x_{3}, x_{4}) p(x_{2} | x_{3}, x_{4}) \end{align*} $$

같이보기


  1. Hogg et al. (2018). Introduction to Mathematical Statistcs(8th Edition): p109~111, p136~137. ↩︎