logo

상호 정보 📂양자정보이론

상호 정보

양자정보이론
[ 펼치기 · 접기 ]

정의1 2

PXP_{X}, PYP_{Y}, PX,YP_{X,Y}를 각각 이산확률변수 XX, YY확률질량함수결합 확률질량함수라고 하자. XXYY상호 정보mutual information를 다음과 같이 정의한다.

I(X,Y):=D(PX,YPXPY)=xX,yYPX,Y(x,y)log2(PX,Y(x,y)PX(x)PY(x)) \begin{align*} I(X, Y) &:= D(P_{X,Y} \| P_{X} P_{Y}) \\ &= \sum\limits_{x \in X, y \in Y} P_{X,Y}(x,y) \log_{2} \left( \dfrac{P_{X,Y}(x,y)}{P_{X}(x)P_{Y}(x)} \right) \end{align*}

이때 DD상대적 엔트로피이다.

설명

다음과 같은 표기법들이 쓰인다.

I(X,Y)=I(X:Y)=I(X;Y)=H(X:Y) I(X, Y) = I(X : Y) = I(X ; Y) = H(X : Y)

D(pq)D(p \| q)pp가 실제 분포일 때, 이에 대한 qq라는 추정이 얼마나 좋지 않은지를 나타낸다. 따라서 I(X,Y)=D(PX,YPXPY)I(X, Y) = D(P_{X,Y} \| P_{X} P_{Y})PX,YP_{X,Y}가 실제 분포일 때, PXPYP_{X}P_{Y}라는 가정(XXYY는 독립이다)이 얼마나 안좋은지를 말해준다.

I(X,Y)I(X, Y)XXYY가 독립에 가까울수록 작은 값을 가지므로, (X,Y)(X, Y)가 정규분포라면 XXYY 사이의 상관관계를 평가하는 함수로 이해할 수 있다. 간단한 예로 (X,Y)(X, Y)가 평균이 (0,0)(0, 0)이고 공분산행렬Σ=[1ρρ1]\Sigma = \begin{bmatrix} 1 & \rho \\ \rho & 1 \end{bmatrix}정규분포라고 하자. 그러면 아래의 성질과 정규분포의 엔트로피 공식에 의해 X,YX, Y의 상호정보는

I(X,Y)=H(X)+H(Y)H(X,Y)=12ln(2πe)+12ln(2πe)12ln[(2πe)2(1ρ2)]=12ln(2πe)212ln[(2πe)2(1ρ2)]=12ln(1ρ2) \begin{align*} I(X, Y) &= H(X) + H(Y) - H(X, Y) \\ &= \dfrac{1}{2}\ln(2\pi e) + \dfrac{1}{2}\ln(2\pi e) - \dfrac{1}{2}\ln[(2\pi e)^{2}(1-\rho^{2})] \\ &= \dfrac{1}{2}\ln(2\pi e)^{2} - \dfrac{1}{2}\ln[(2\pi e)^{2}(1-\rho^{2})] \\ &= - \dfrac{1}{2}\ln (1-\rho^{2}) \\ \end{align*}

따라서 X,YX, Y가 독립이면 ρ=0\rho = 0이고 I(X,Y)=0I(X, Y) = 0이다. 반대로 X,YX, Y가 강한 상관관계를 가지면, 그러니까 ρ=±1\rho = \pm 1이면 I(X,Y)=I(X, Y) = \infty가 된다.

성질

  1. 대칭성symmetry I(X,Y)=I(Y,X) I(X, Y) = I(Y, X) 정의에 의해 자명하다.

  2. Non-negativity I(X,Y)0 I(X, Y) \ge 0 D(pq)0D(p \| q) \ge 0이므로 자명하다. 등호는 XXYY가 독립일 때 성립한다.

  3. 결합 엔트로피 및 조건부 엔트로피와의 관계

    I(X,Y)=H(X)+H(Y)H(X,Y)=H(X)H(XY)=H(Y)H(YX)=H(X,Y)H(XY)H(YX) \begin{align*} I(X, Y) &= H(X) + H(Y) - H(X, Y) \\ &= H(X) - H(X | Y) \\ &= H(Y) - H(Y | X) \\ &= H(X, Y) - H(X | Y) - H(Y | X) \end{align*}

    여기서 H(X)H(X)엔트로피 H(X,Y)H(X, Y)결합 엔트로피, H(XY)H(X | Y)조건부 엔트로피이다.


  1. Stephen M. Barnett, Quantum Information (2009), p11-12 ↩︎

  2. 김영훈·허재성, 양자 정보 이론 (2020), p248-250 ↩︎