logo

수리통계학에서의 조건부 확률 분포 📂수리통계학

수리통계학에서의 조건부 확률 분포

정의1

  1. 이산 랜덤 벡터 (X,Y)(X, Y)에 대해서, pX,Yp_{X, Y}(X,Y)(X, Y)결합 확률질량함수라고 하자. pXp_{X}XX주변 확률질량함수라고 하자. 이 때, 다음과 같은 pYXp_{Y | X}를, Y=yY = y가 주어졌을 때 XX조건부 확률질량함수conditional probability mass function라고 한다. pYX(yx)=pX,Y(x,y)pX(x) p_{Y | X} (y | x) = \dfrac{p_{X, Y}(x, y)}{p_{X}(x)}

  2. 연속 랜덤 벡터 (X,Y)(X, Y)에 대해서, fX,Yf_{X, Y}(X,Y)(X, Y)결합 확률밀도함수라고 하자. fXf_{X}YY주변 확률밀도함수라고 하자. 이 때, 다음과 같은 fYXf_{Y | X}를, Y=yY = y가 주어졌을 때 XX조건부 확률밀도함수conditional probability density function라고 한다.

fYX(yx)=fX,Y(x,y)fX(x) f_{Y | X} (y | x) = \dfrac{f_{X, Y}(x, y)}{f_{X}(x)}

일반화

  1. 이산 랜덤 벡터 (X1,,Xn)(X_{1}, \dots, X_{n})에 대해서, p1,,np_{1, \dots, n}(X1,,Xn)(X_{1}, \dots, X_{n})의 결합 확률질량함수라고 하자. p1,,n1p_{1, \dots, n-1}X1,,Xn1X_{1}, \dots, X_{n-1}의 결합 확률질량함수라고 하자. 이 때, 다음과 같은 pn1,,n1p_{n | 1, \dots, n-1}을, X1=x1,,Xn1=xn1X_{1} = x_{1}, \dots, X_{n-1} = x_{n-1}이 주어졌을 때 XnX_{n}조건부 확률질량함수라고 한다. pn1,,n1(xnx1,,xn1)=p1,,n(x1,,xn)p1,,n1(x1,,xn1) \begin{equation} p_{n | 1, \dots, n-1} (x_{n} | x_{1}, \dots, x_{n-1}) = \dfrac{p_{1, \dots, n}(x_{1}, \dots, x_{n})}{p_{1, \dots, n-1}(x_{1}, \dots, x_{n-1})} \end{equation}

  2. 연속 랜덤 벡터 (X1,,Xn)(X_{1}, \dots, X_{n})에 대해서, f1,,nf_{1, \dots, n}(X1,,Xn)(X_{1}, \dots, X_{n})의 결합 확률밀도함수라고 하자. f1,,n1f_{1, \dots, n-1}X1,,Xn1X_{1}, \dots, X_{n-1}의 결합 확률밀도함수라고 하자. 이 때, 다음과 같은 fn1,,n1f_{n | 1, \dots, n-1}을, X1=x1,,Xn1=xn1X_{1} = x_{1}, \dots, X_{n-1} = x_{n-1}이 주어졌을 때 XnX_{n}조건부 확률밀도함수라고 한다. fn1,,n1(xnx1,,xn1)=f1,,n(x1,,xn)f1,,n1(x1,,xn1) \begin{equation} f_{n | 1, \dots, n-1} (x_{n} | x_{1}, \dots, x_{n-1}) = \dfrac{f_{1, \dots, n}(x_{1}, \dots, x_{n})}{f_{1, \dots, n-1}(x_{1}, \dots, x_{n-1})} \end{equation}

  3. 이산 랜덤 벡터 (X1,,Xn)(X_{1}, \dots, X_{n})에 대해서, 다음의 p2,,n1p_{2, \cdots , n | 1}X1=x1X_{1} = x_{1} 이 주어졌을 때의 X2,,Xn X_{2}, \cdots , X_{n}결합 조건부 확률 질량 함수joint conditional probability mass function라고 한다. p2,,n1(x2,,xnx1)=p1,,n(x1,x2,,xn)p1(x1) \begin{equation} p_{2, \cdots , n | 1} ( x_{2} , \cdots ,x_{n} | x_{1} ) = {{ p_{1, \cdots , n}(x_{1} , x_{2} , \cdots , x_{n}) } \over { p_{1}( x_{1} ) }} \end{equation}

  4. 연속 랜덤 벡터 (X1,,Xn)(X_{1}, \dots, X_{n})에 대해서, 다음의 f2,,n1f_{2, \cdots , n | 1}X1=x1X_{1} = x_{1} 이 주어졌을 때의 X2,,Xn X_{2}, \cdots , X_{n}결합 조건부 확률 밀도 함수joint conditional probability density function라고 한다. f2,,n1(x2,,xnx1)=f1,,n(x1,x2,,xn)f1(x1) \begin{equation} f_{2, \cdots , n | 1} ( x_{2} , \cdots ,x_{n} | x_{1} ) = {{ f_{1, \cdots , n}(x_{1} , x_{2} , \cdots , x_{n}) } \over { f_{1}( x_{1} ) }} \end{equation}

기댓값

  1. X2,,XnX_{2} , \cdots , X_{n} 에 대한 함수 uu 가 주어져 있을 때, 다음을 X1=x1X_{1} = x_{1} 이 주어졌을 때의 u(X2,,Xn)u( X_{2}, \cdots , X_{n} )조건부 기대값이라고 한다. E[u(X2,,Xn)x1]=u(x2,,xn)f2,,n1(x2,,xnx1)dx2,dxn \begin{align*} & E \left[ u \left( X_{2} , \cdots , X_{n} \right) | x_{1} \right] \\ =& \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} u (x_{2} , \cdots , x_{n}) f_{2 , \cdots , n | 1} (x_{2} , \cdots, x_{n} | x_{1}) dx_{2} \cdots , dx_{n} \end{align*}

정리

  • [1] 편의를 위해 아랫첨자를 생략하여 p(xnx1,,xn1)=pn1,,n1(xnx1,,xn1)p(x_{n} | x_{1}, \dots, x_{n-1}) = p_{n | 1, \dots, n-1} (x_{n} | x_{1}, \dots, x_{n-1}), p(x1,,xn)=p1,,n(x1,,xn)p(x_{1}, \dots, x_{n}) = p_{1, \dots, n}(x_{1}, \dots, x_{n})이라 표기하자. 다음이 성립한다. 다음이 성립한다. p(x1,,xn)=p(x1)p(x2x1)p(x3x2,x1)p(xnx1,,xn1) p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}, x_{1}) \cdots p(x_{n} | x_{1}, \dots, x_{n-1}) 혹은 p(x1,,xn)=p(xn)p(xn1xn)p(xn2xn1,xn)p(x1x2,,xn) p(x_{1}, \dots, x_{n}) = p(x_{n}) p(x_{n-1} | x_{n}) p(x_{n-2} | x_{n-1}, x_{n}) \cdots p(x_{1} | x_{2}, \dots, x_{n})

    • [1-1] 만약 {Xt}\left\{ X_{t} \right\}마코프 체인이라면, 다음이 성립한다. p(x1,,xn)=p(x1)p(x2x1)p(x3x2)p(xnxn1)=p(x1)t=2np(xtxt1) \begin{align*} p(x_{1}, \dots, x_{n}) &= p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}) \cdots p(x_{n} | x_{n-1}) \\ &= p(x_{1}) \prod_{t=2}^{n} p(x_{t} | x_{t-1}) \end{align*} 또한 다음이 성립한다. p(x2,,xnx1)=t=2np(xtxt1) p(x_{2}, \dots, x_{n} | x_{1}) = \prod_{t=2}^{n} p(x_{t} | x_{t-1})
  • [2] p(x1,x2x3,x4)=p(x1x2,x3,x4)p(x2x3,x4)p(x_{1}, x_{2} | x_{3}, x_{4}) = p(x_{1} | x_{2}, x_{3}, x_{4}) p(x_{2} | x_{3}, x_{4}) 혹은 p(x1x2,x3,x4)=p(x1,x2x3,x4)p(x2x3,x4) p(x_{1} | x_{2}, x_{3}, x_{4}) = \dfrac{p(x_{1}, x_{2} | x_{3}, x_{4})}{p(x_{2} | x_{3}, x_{4})}

  • [3] 조건부 분산: Var(X2X1=x1)=E[(X2E(X2X1=x1))2X1=x1]=E(X22X1=x1)[E(X2X1=x1)]2 \begin{align*} \Var (X_{2} | X_{1} = x_{1}) =& E \left[ \left( X_{2} - E (X_{2} | X_{1} = x_{1}) \right)^{2} | X_{1} = x_{1} \right] \\ =& E \left( X_{2}^{2} | X_{1} = x_{1} \right) - \left[ E(X_{2} | X_{1} = x_{1}) \right]^{2} \end{align*}

  • [4]: E[E(X2X1)]=E(X2)E \left[ E (X_{2} | X_{1}) \right] = E (X_{2} )

  • [5]: Var(X2)\Var(X_{2}) 이 존재하면 Var[E(X2X1)]Var(X2)\Var \left[ E \left( X_{2} | X_{1} \right) \right] \le \Var (X_{2})

설명

조건부 확률, 조건부 기대값은 교과과정 수준에서 그랬듯 수리통계학에서도 가장 계산하기 까다로운 파트에 속한다. 다른 건 차치하고서라도 다변량인 이상 아무래도 계산이 많아질 수밖에 없다. 물론 조건부라는 개념은 그럴만한 가치가 있다. 한편 고작해봐야 미적분학에 의존하고 있는 수리통계학과 달리 측도론에 그 기반을 둔 확률론으로 발전하게 되면 그 계산들이 한결 간결해진다. 요지는 ‘무시하지는 말되, 너무 집착하지도 말라’는 것이다.

(3)(3)(4)(4)(1)(1), (2)(2)를 반복 적용하면 얻을 수 있다.

증명

[1]

(1)(1)에서 분모를 옮겨주면 다음을 얻는다.

p(x1,,xn1)p(xnx1,,xn1)=p(x1,,xn) p(x_{1}, \dots, x_{n-1})p(x_{n} | x_{1}, \dots, x_{n-1}) = p(x_{1}, \dots, x_{n})     p(x1,,xn)=p(x1,,xn1)p(xnx1,,xn1) \begin{equation} \implies p(x_{1}, \dots, x_{n}) = p(x_{1}, \dots, x_{n-1})p(x_{n} | x_{1}, \dots, x_{n-1}) \end{equation}

(5)(5)를 다시 p(x1,,xn1)p(x_{1}, \dots, x_{n-1})에 대해 적용하면 다음을 얻는다.

p(x1,,xn)=[p(x1,,xn2)p(xn1x1,,xn2)]p(xnx1,,xn1) \begin{align*} &p(x_{1}, \dots, x_{n}) \\ &= \big[ p(x_{1}, \dots, x_{n-2}) p(x_{n-1} | x_{1}, \dots, x_{n-2}) \big] p(x_{n} | x_{1}, \dots, x_{n-1}) \end{align*}

p(x1,,xn2)p(x_{1}, \dots, x_{n-2})(5)(5)를 다시 적용하면 다음을 얻는다.

p(x1,,xn)=[p(x1,,xn3)p(xn2x1,,xn3)]p(xn1x1,,xn2)p(xnx1,,xn1) \begin{align*} &p(x_{1}, \dots, x_{n}) \\ &= \big[ p(x_{1}, \dots, x_{n-3}) p(x_{n-2} | x_{1}, \dots, x_{n-3}) \big] p(x_{n-1} | x_{1}, \dots, x_{n-2}) p(x_{n} | x_{1}, \dots, x_{n-1}) \end{align*}

계속 반복하면 최종적으로 다음을 얻는다.

p(x1,,xn)=p(x1)p(x2x1)p(x3x2,x1)p(xnx1,,xn1) p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}, x_{1}) \cdots p(x_{n} | x_{1}, \dots, x_{n-1})

만약 {Xt}\left\{ X_{t} \right\}마코프 체인이라면, p(xnxn1,,x1)=p(xnxn1)p(x_{n} | x_{n-1}, \dots, x_{1}) = p(x_{n} | x_{n-1})이 성립하므로, 아래의 식을 얻는다.

p(x1,,xn)=p(x1)p(x2x1)p(x3x2)p(xnxn1)=p(x1)t=2np(xtxt1) p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2} | x_{1}) p(x_{3} | x_{2}) \cdots p(x_{n} | x_{n-1}) = p(x_{1}) \prod_{t=2}^{n} p(x_{t} | x_{t-1})

한편 (3)(3)에 의해, p(x1,,xn)=p(x1)p(x2,,xnx1)p(x_{1}, \dots, x_{n}) = p(x_{1}) p(x_{2}, \dots, x_{n} | x_{1})이므로, 위 식과 비교하여 다음의 결과를를 얻을 수 있다.

p(x1,,xn)=p(x1)t=2np(xtxt1)=p(x1)p(x2,,xnx1) p(x_{1}, \dots, x_{n}) = p(x_{1}) \prod_{t=2}^{n} p(x_{t} | x_{t-1}) = p(x_{1}) p(x_{2}, \dots, x_{n} | x_{1})     p(x2,,xnx1)=t=2np(xtxt1) \implies p(x_{2}, \dots, x_{n} | x_{1}) = \prod_{t=2}^{n} p(x_{t} | x_{t-1})

또한 조건부 확률의 정의에서 인덱스를 역순으로 적용하면 다음을 얻는다.

p(x1,,xn)=p(x2,,xn)p(x1x2,,xn)=p(x3,,xn)p(x2x3,,xn)p(x1x2,,xn)==p(xn)p(xn1xn)p(xn2xn1,xn)p(x1x2,,xn) \begin{align*} p(x_{1}, \dots, x_{n}) &= p(x_{2}, \dots, x_{n}) p(x_{1} | x_{2}, \dots, x_{n}) \\ &= p(x_{3}, \dots, x_{n}) p(x_{2} | x_{3}, \dots, x_{n}) p(x_{1} | x_{2}, \dots, x_{n}) \\ &= \vdots \\ &= p(x_{n}) p(x_{n-1} | x_{n}) p(x_{n-2} | x_{n-1}, x_{n}) \cdots p(x_{1} | x_{2}, \dots, x_{n}) \end{align*}

[2]

p(x1,x2x3,x4)=p(x1,x2,x3,x4)p(x3,x4)=p(x1,x2,x3,x4)p(x3,x4)p(x2,x3,x4)p(x2,x3,x4)=p(x1,x2,x3,x4)p(x2,x3,x4)p(x2,x3,x4)p(x3,x4)=p(x1x2,x3,x4)p(x2x3,x4) \begin{align*} p(x_{1}, x_{2} | x_{3}, x_{4}) &= \dfrac{p(x_{1}, x_{2}, x_{3}, x_{4})}{p(x_{3}, x_{4})} \\ &= \dfrac{p(x_{1}, x_{2}, x_{3}, x_{4})}{p(x_{3}, x_{4})} \dfrac{p(x_{2}, x_{3}, x_{4})}{p(x_{2}, x_{3}, x_{4})} \\ &= \dfrac{p(x_{1}, x_{2}, x_{3}, x_{4})}{p(x_{2}, x_{3}, x_{4})} \dfrac{p(x_{2}, x_{3}, x_{4})}{p(x_{3}, x_{4})} \\ &= p(x_{1} | x_{2}, x_{3}, x_{4}) p(x_{2} | x_{3}, x_{4}) \end{align*}

같이보기


  1. Hogg et al. (2018). Introduction to Mathematical Statistcs(8th Edition): p109~111, p136~137. ↩︎