수리통계학에서의 조건부 확률 분포
📂수리통계학수리통계학에서의 조건부 확률 분포
정의
이산 랜덤 벡터 (X,Y)에 대해서, pX,Y를 (X,Y)의 결합 확률질량함수라고 하자. pX를 X의 주변 확률질량함수라고 하자. 이 때, 다음과 같은 pY∣X를, Y=y가 주어졌을 때 X의 조건부 확률질량함수conditional probability mass function라고 한다.
pY∣X(y∣x)=pX(x)pX,Y(x,y)
연속 랜덤 벡터 (X,Y)에 대해서, fX,Y를 (X,Y)의 결합 확률밀도함수라고 하자. fX를 Y의 주변 확률밀도함수라고 하자. 이 때, 다음과 같은 fY∣X를, Y=y가 주어졌을 때 X의 조건부 확률밀도함수conditional probability density function라고 한다.
fY∣X(y∣x)=fX(x)fX,Y(x,y)
일반화
이산 랜덤 벡터 (X1,…,Xn)에 대해서, p1,…,n을 (X1,…,Xn)의 결합 확률질량함수라고 하자. p1,…,n−1를 X1,…,Xn−1의 결합 확률질량함수라고 하자. 이 때, 다음과 같은 pn∣1,…,n−1을, X1=x1,…,Xn−1=xn−1이 주어졌을 때 Xn의 조건부 확률질량함수라고 한다.
pn∣1,…,n−1(xn∣x1,…,xn−1)=p1,…,n−1(x1,…,xn−1)p1,…,n(x1,…,xn)
연속 랜덤 벡터 (X1,…,Xn)에 대해서, f1,…,n를 (X1,…,Xn)의 결합 확률밀도함수라고 하자. f1,…,n−1를 X1,…,Xn−1의 결합 확률밀도함수라고 하자. 이 때, 다음과 같은 fn∣1,…,n−1을, X1=x1,…,Xn−1=xn−1이 주어졌을 때 Xn의 조건부 확률밀도함수라고 한다.
fn∣1,…,n−1(xn∣x1,…,xn−1)=f1,…,n−1(x1,…,xn−1)f1,…,n(x1,…,xn)
이산 랜덤 벡터 (X1,…,Xn)에 대해서, 다음의 p2,⋯,n∣1을 X1=x1 이 주어졌을 때의 X2,⋯,Xn 의 결합 조건부 확률 질량 함수joint conditional probability mass function라고 한다.
p2,⋯,n∣1(x2,⋯,xn∣x1)=p1(x1)p1,⋯,n(x1,x2,⋯,xn)
연속 랜덤 벡터 (X1,…,Xn)에 대해서, 다음의 f2,⋯,n∣1 를 X1=x1 이 주어졌을 때의 X2,⋯,Xn 의 결합 조건부 확률 밀도 함수joint conditional probability density function라고 한다.
f2,⋯,n∣1(x2,⋯,xn∣x1)=f1(x1)f1,⋯,n(x1,x2,⋯,xn)
기댓값
- X2,⋯,Xn 에 대한 함수 u 가 주어져 있을 때, 다음을 X1=x1 이 주어졌을 때의 u(X2,⋯,Xn) 의 조건부 기대값이라고 한다.
=E[u(X2,⋯,Xn)∣x1]∫−∞∞⋯∫−∞∞u(x2,⋯,xn)f2,⋯,n∣1(x2,⋯,xn∣x1)dx2⋯,dxn
정리
[1] 편의를 위해 아랫첨자를 생략하여 p(xn∣x1,…,xn−1)=pn∣1,…,n−1(xn∣x1,…,xn−1), p(x1,…,xn)=p1,…,n(x1,…,xn)이라 표기하자. 다음이 성립한다. 다음이 성립한다.
p(x1,…,xn)=p(x1)p(x2∣x1)p(x3∣x2,x1)⋯p(xn∣x1,…,xn−1)
혹은
p(x1,…,xn)=p(xn)p(xn−1∣xn)p(xn−2∣xn−1,xn)⋯p(x1∣x2,…,xn)
- [1-1] 만약 {Xt}가 마코프 체인이라면, 다음이 성립한다.
p(x1,…,xn)=p(x1)p(x2∣x1)p(x3∣x2)⋯p(xn∣xn−1)=p(x1)t=2∏np(xt∣xt−1)
또한 다음이 성립한다.
p(x2,…,xn∣x1)=t=2∏np(xt∣xt−1)
[2] p(x1,x2∣x3,x4)=p(x1∣x2,x3,x4)p(x2∣x3,x4) 혹은
p(x1∣x2,x3,x4)=p(x2∣x3,x4)p(x1,x2∣x3,x4)
[3] 조건부 분산:
Var(X2∣X1=x1)==E[(X2−E(X2∣X1=x1))2∣X1=x1]E(X22∣X1=x1)−[E(X2∣X1=x1)]2
[4]: E[E(X2∣X1)]=E(X2)
[5]: Var(X2) 이 존재하면 Var[E(X2∣X1)]≤Var(X2)
설명
조건부 확률, 조건부 기대값은 교과과정 수준에서 그랬듯 수리통계학에서도 가장 계산하기 까다로운 파트에 속한다. 다른 건 차치하고서라도 다변량인 이상 아무래도 계산이 많아질 수밖에 없다. 물론 조건부라는 개념은 그럴만한 가치가 있다. 한편 고작해봐야 미적분학에 의존하고 있는 수리통계학과 달리 측도론에 그 기반을 둔 확률론으로 발전하게 되면 그 계산들이 한결 간결해진다. 요지는 ‘무시하지는 말되, 너무 집착하지도 말라’는 것이다.
(3)과 (4)는 (1), (2)를 반복 적용하면 얻을 수 있다.
증명
[1]
(1)에서 분모를 옮겨주면 다음을 얻는다.
p(x1,…,xn−1)p(xn∣x1,…,xn−1)=p(x1,…,xn)
⟹p(x1,…,xn)=p(x1,…,xn−1)p(xn∣x1,…,xn−1)
(5)를 다시 p(x1,…,xn−1)에 대해 적용하면 다음을 얻는다.
p(x1,…,xn)=[p(x1,…,xn−2)p(xn−1∣x1,…,xn−2)]p(xn∣x1,…,xn−1)
p(x1,…,xn−2)에 (5)를 다시 적용하면 다음을 얻는다.
p(x1,…,xn)=[p(x1,…,xn−3)p(xn−2∣x1,…,xn−3)]p(xn−1∣x1,…,xn−2)p(xn∣x1,…,xn−1)
계속 반복하면 최종적으로 다음을 얻는다.
p(x1,…,xn)=p(x1)p(x2∣x1)p(x3∣x2,x1)⋯p(xn∣x1,…,xn−1)
만약 {Xt}가 마코프 체인이라면, p(xn∣xn−1,…,x1)=p(xn∣xn−1)이 성립하므로, 아래의 식을 얻는다.
p(x1,…,xn)=p(x1)p(x2∣x1)p(x3∣x2)⋯p(xn∣xn−1)=p(x1)t=2∏np(xt∣xt−1)
한편 (3)에 의해, p(x1,…,xn)=p(x1)p(x2,…,xn∣x1)이므로, 위 식과 비교하여 다음의 결과를를 얻을 수 있다.
p(x1,…,xn)=p(x1)t=2∏np(xt∣xt−1)=p(x1)p(x2,…,xn∣x1)
⟹p(x2,…,xn∣x1)=t=2∏np(xt∣xt−1)
또한 조건부 확률의 정의에서 인덱스를 역순으로 적용하면 다음을 얻는다.
p(x1,…,xn)=p(x2,…,xn)p(x1∣x2,…,xn)=p(x3,…,xn)p(x2∣x3,…,xn)p(x1∣x2,…,xn)=⋮=p(xn)p(xn−1∣xn)p(xn−2∣xn−1,xn)⋯p(x1∣x2,…,xn)
■
[2]
p(x1,x2∣x3,x4)=p(x3,x4)p(x1,x2,x3,x4)=p(x3,x4)p(x1,x2,x3,x4)p(x2,x3,x4)p(x2,x3,x4)=p(x2,x3,x4)p(x1,x2,x3,x4)p(x3,x4)p(x2,x3,x4)=p(x1∣x2,x3,x4)p(x2∣x3,x4)
■
같이보기