logo

고전정보이론에서 엔트로피란? 📂양자정보이론

고전정보이론에서 엔트로피란?

양자정보이론
[ 펼치기 · 접기 ]

정의1 2

이산확률변수 XXnn개의 값 x1,x2,,xnx_{1}, x_{2}, \dots, x_{n}을 취할 수 있다고 하자. XX확률질량함수pp라고 하자. 그러면 XX 혹은 pp엔트로피Shannon entropy HH를 다음과 같이 정의한다.

H(X)=H(p):=E[I(xi)]=i=1np(xi)I(xi)=i=1np(xi)log2p(xi) \begin{equation} H(X) = H(p) := E\left[ I(x_{i}) \right] = \sum_{i=1}^{n} p(x_{i}) I(x_{i}) = -\sum_{i=1}^{n} p(x_{i}) \log_{2}p(x_{i}) \end{equation}

이때 II정보량, EE기댓값이다.

XX가 연속확률변수라면,

H(X)=H(p)=p(x)log2p(x)dx H(X) = H(p) = - \int_{-\infty}^{\infty} p(x)\log_{2}p(x) dx

설명

쉽게 말해서 엔트로피란 정보의 기대값(평균)이다. 엔트로피를 통해 부호화의 효율과 통신의 한계에 대해서 수학적으로 다룰 수 있다.

엔트로피는 흔히 무질서도라고 설명되는데 여기서 말하는 질서란 규칙, 경향, 패턴 등의 의미로 생각하면 된다. 따라서 엔트로피가 높다는 것은 무질서도가 높다는 것이고, 이는 확률변수 XX에 대해서 규칙이나 패턴을 파악하기가 어렵다는 얘기이다.

이제 확률이 조작된 동전 던지기를 생각해보자. 앞면이 나올 확률을 pp라고 하면, 뒷면이 나올 확률은 1p1-p이고 엔트로피는 다음과 같다.

H=plog2p(1p)log2(1p) H = -p\log_{2}p - (1-p)\log_{2}(1-p)

pp에 대한 HH를 그래프로 그리면 다음과 같다.

entropy.png

앞면이 나올 확률이 12\dfrac{1}{2}일 때, 엔트로피는 H=12log21212log212=1H = -\dfrac{1}{2}\log_{2}\dfrac{1}{2}-\dfrac{1}{2}\log_{2}\dfrac{1}{2} = 1이고 가장 큰 값이다. 다시 말해 동전 던지기의 패턴이나 규칙을 잘 알 수 없다는 의미이다. 실제로 동전 던지기의 경우 우리는 동전의 어느 면이 나올지 확신할 수 없다. 여기서 앞면이 나올 확률이 조금이라도 바뀌면 엔트로피가 내려간다. 만약 앞면이 나올 확률이 95100\dfrac{95}{100}이라면, 엔트로피는 약 0.280.28이고 무질서도가 낮다, 즉 어떤 규칙이나 패턴(이 예에서는 거의 앞면이 나온다는 패턴)이 있다는 의미이다. 이 내용을 다음과 같이 정리할 수 있다.

엔트로피가 높다 = 무질서도가 높다 = 규칙성이나 패턴이 없다 = 결과를 예측하기 힘들다
엔트로피가 낮다 = 무질서도가 낮다 = 규칙성이나 패턴이 있다 = 결과를 예측하기 쉽다

위의 예시에서부터 예상할 수 있듯이, 일반적으로 nn가지의 경우가 있다고 할 때 엔트로피가 가장 높게 되는 건 모든 확률이 1n\dfrac{1}{n}으로 같을 때이다.

성질

확률변수 XXnn개의 값 x1,x2,,xnx_{1}, x_{2}, \dots, x_{n}을 취할 수 있다고 하자. 엔트로피 HH는 다음과 같은 성질을 갖는다.

  1. HH오목concave 함수이다.
  2. 어떤 xix_{i}에 대해 p(xi)=1p(x_{i}) = 1이면, H(X)=0H(X) = 0이다.
  3. 모든 확률이 p(xi)=1np(x_{i}) = \dfrac{1}{n}로 같을 때, 엔트로피는 최대이며 그 값은 log2n\log_{2}n이다.
  4. 평균이 0\mathbf{0}이고 공분산행렬KK인 랜덤벡터 XRnX \in \mathbb{R}^{n}의 엔트로피에 대해서 다음이 성립한다. H(X)12ln[(2πe)pK] \begin{equation} H(X) \le \dfrac{1}{2}\ln \left[ (2 \pi e)^{p} \left| K \right| \right] \end{equation} K\left| K \right|공분산행렬행렬식이다. XX가 정규분포이면 등호가 성립한다.
    • 평균 μ\mu와 분산 σ2\sigma^{2}이 주어졌을 때, 엔트로피가 최대인 분포는 정규분포이다.
    • 확률변수 XX추정량 X^\hat{X}에 대해서 다음이 성립한다. E[(XX^)2]12πee2H(X) E\left[ (X - \hat{X})^{2} \right] \ge \dfrac{1}{2\pi e} e^{2H(X)}

증명

4

편의상 x=X\mathbf{x} = X라고 표기하자. ggg(x)xixjdx=Kij\displaystyle \int g(\mathbf{x})x_{i}x_{j} d \mathbf{x} = K_{ij}를 만족하는 임의의 확률밀도함수라고 하자. ϕ\phi를 정규분포 N(0,K)N(\mathbf{0}, K)의 확률밀도함수라고 하자. ϕ(x)=1(2π)pKexp(12xTK1x) \phi (\mathbf{x}) = \dfrac{1}{\sqrt{(2\pi)^{p} \left| K \right|}} \exp \left( -\dfrac{1}{2}\mathbf{x}^{T} K^{-1} \mathbf{x} \right) 우선 식 g(x)lnϕ(x)dx=ϕ(x)lnϕ(x)dx\displaystyle \int g(\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x} = \int \phi (\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x}가 성립함을 보일 것이다. lnϕ(x)\ln \phi (\mathbf{x})를 먼저 계산하면,

lnϕ(x)=ln1(2π)pK12xTK1x=C+aijxixj \begin{align*} \ln \phi (\mathbf{x}) &= \ln\dfrac{1}{\sqrt{(2\pi)^{p} \left| K \right|}} - \dfrac{1}{2}\mathbf{x}^{T} K^{-1} \mathbf{x} \\ &= C + \sum a_{ij} x_{i} x_{j} \end{align*}

첫번째 항은 어떤 상수 CC로 표현할 수 있고, 두번째 항도 K1K^{-1}에만 의존하는 어떤 상수 ajia_{ji}에 대한 이차형식으로 표현할 수 있다. 따라서

g(x)lnϕ(x)dx=Cg(x)dx+g(x)aijxixjdx=C+aijg(x)xixjdx=C+aijKijby assumption for g \begin{align*} \int g(\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x} &= C \int g(\mathbf{x}) d \mathbf{x} + \int g(\mathbf{x})\sum a_{ij}x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij} \int g(\mathbf{x}) x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij}K_{ij} \qquad \text{by assumption for gg} \end{align*}

또한

ϕ(x)lnϕ(x)dx=Cϕ(x)dx+ϕ(x)aijxixjdx=C+aijϕ(x)xixjdx=C+aijKijby definition of covariance \begin{align*} \int \phi (\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x} &= C \int \phi (\mathbf{x}) d \mathbf{x} + \int \phi (\mathbf{x})\sum a_{ij}x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij} \int \phi (\mathbf{x}) x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij}K_{ij} \qquad \text{by definition of covariance} \end{align*}

상대적 엔트로피는 항상 00보다 크거나 같으므로,

0D(gϕ)=glngϕ=glngglnϕ=H(g)ϕlnϕ=H(g)+H(ϕ) \begin{align*} 0 &\le D(g \| \phi) \\ &= \int g \ln \dfrac{g}{\phi} \\ &= \int g \ln g - \int g \ln \phi \\ &= - H(g) - \int \phi \ln \phi \\ &= - H(g) + H(\phi) \end{align*}

정규분포의 엔트로피는 12ln[(2πe)nK]\dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right]이므로,

H(X)=H(g)H(ϕ)=12ln[(2πe)nK] H(X) = H(g) \le H(\phi) = \dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right]

이제 XX를 1차원 확률변수라고 하자.

E[(XX^)2]minXE[(XX^)2]=E[(XE(X))2]=Var(X) \begin{align*} E\left[ (X - \hat{X})^{2} \right] &\ge \min_{X} E\left[ (X - \hat{X})^{2} \right] \\ &= E\left[ (X - E(X))^{2} \right] \\ &= \Var(X) \end{align*}

(2)(2)가 1차원일 때 다음의 식을 얻는다.

H(X)12ln(2πeσ2)    2H(X)ln(2πeσ2)    e2H(X)2πeσ2    12πee2H(X)σ2=Var(X) \begin{align*} && H(X) &\le \dfrac{1}{2} \ln(2\pi e \sigma^{2}) \\ \implies && 2H(X) &\le \ln(2\pi e \sigma^{2}) \\ \implies && e^{2H(X)} &\le 2\pi e \sigma^{2} \\ \implies && \dfrac{1}{2\pi e}e^{2H(X)} &\le \sigma^{2} = \Var(X) \\ \end{align*}

위의 식에 대입하면,

E[(XX^)2]12πee2H(X) E\left[ (X - \hat{X})^{2} \right] \ge \dfrac{1}{2\pi e} e^{2H(X)}

정규분포의 엔트로피

정규분포 N(μ,σ2)N(\mu, \sigma^{2})엔트로피는 (자연로그를 택했을 때) 다음과 같다.

H=12ln(2πeσ2)=ln2πeσ2 H = \dfrac{1}{2} \ln (2\pi e \sigma^{2}) = \ln \sqrt{2\pi e \sigma^{2}}

다변량 정규분포 Nn(μ,K)N_{n}(\boldsymbol{\mu}, K)의 엔트로피는 다음과 같다.

H=12ln[(2πe)nK]=12ln(det(2πeK)) H = \dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right] = \dfrac{1}{2}\ln (\det (2\pi e K))

같이보기


  1. 김영훈·허재성, 양자 정보 이론 (2020), p246 ↩︎

  2. Stephen M. Barnett, Quantum Information (2009), p7-10 ↩︎