정보이론에서 엔트로피란? 📂양자정보이론

정보이론에서 엔트로피란?

Shannon Entropy in Information Theory

양자정보이론
[ 펼치기 · 접기 ]

정의1 2

이산확률변수 $X$가 $n$개의 값 $x_{1}, x_{2}, \dots, x_{n}$을 취할 수 있다고 하자. $X$의 확률질량함수를 $p$라고 하자. 그러면 $X$ 혹은 $p$의 엔트로피Shannon entropy $H$를 다음과 같이 정의한다.

$$ \begin{equation} H(X) = H(p) := E\left[ I(x_{i}) \right] = \sum_{i=1}^{n} p(x_{i}) I(x_{i}) = -\sum_{i=1}^{n} p(x_{i}) \log_{2}p(x_{i}) \end{equation} $$

이때 $I$는 정보량, $E$는 기댓값이다. $X$가 연속확률변수라면,

$$ H(X) = H(p) = - \int_{-\infty}^{\infty} p(x)\log_{2}p(x) dx $$

설명

쉽게 말해서 엔트로피란 정보의 기대값(평균)이다. 엔트로피를 통해 부호화의 효율과 통신의 한계에 대해서 수학적으로 다룰 수 있다.

엔트로피는 흔히 무질서도라고 설명되는데 여기서 말하는 질서란 규칙, 경향, 패턴 등의 의미로 생각하면 된다. 따라서 엔트로피가 높다는 것은 무질서도가 높다는 것이고, 이는 확률변수 $X$에 대해서 규칙이나 패턴을 파악하기가 어렵다는 얘기이다.

이제 확률이 조작된 동전 던지기를 생각해보자. 앞면이 나올 확률을 $p$라고 하면, 뒷면이 나올 확률은 $1-p$이고 엔트로피는 다음과 같다.

$$ H = -p\log_{2}p - (1-p)\log_{2}(1-p) $$

$p$에 대한 $H$를 그래프로 그리면 다음과 같다.

entropy.png

앞면이 나올 확률이 $\dfrac{1}{2}$일 때, 엔트로피는 $H = -\dfrac{1}{2}\log_{2}\dfrac{1}{2}-\dfrac{1}{2}\log_{2}\dfrac{1}{2} = 1$이고 가장 큰 값이다. 다시 말해 동전 던지기의 패턴이나 규칙을 잘 알 수 없다는 의미이다. 실제로 동전 던지기의 경우 우리는 동전의 어느 면이 나올지 확신할 수 없다. 여기서 앞면이 나올 확률이 조금이라도 바뀌면 엔트로피가 내려간다. 만약 앞면이 나올 확률이 $\dfrac{95}{100}$이라면, 엔트로피는 약 $0.28$이고 무질서도가 낮다, 즉 어떤 규칙이나 패턴(이 예에서는 거의 앞면이 나온다는 패턴)이 있다는 의미이다. 이 내용을 다음과 같이 정리할 수 있다.

엔트로피가 높다 = 무질서도가 높다 = 규칙성이나 패턴이 없다 = 결과를 예측하기 힘들다
엔트로피가 낮다 = 무질서도가 낮다 = 규칙성이나 패턴이 있다 = 결과를 예측하기 쉽다

위의 예시에서부터 예상할 수 있듯이, 일반적으로 $n$가지의 경우가 있다고 할 때 엔트로피가 가장 높게 되는 건 모든 확률이 $\dfrac{1}{n}$으로 같을 때이다.

성질

확률변수 $X$가 $n$개의 값 $x_{1}, x_{2}, \dots, x_{n}$을 취할 수 있다고 하자. $(1)$과 같이 정의되는 엔트로피 $H$는 다음과 같은 성질을 갖는다.

  • $H$는 오목concave 함수이다.
  • 어떤 $x_{i}$에 대해 $p(x_{i}) = 1$이면, $H(X) = 0$이다.
  • 모든 확률이 $p(x_{i}) = \dfrac{1}{n}$로 같을 때, 엔트로피는 최대이며 그 값은 $\log_{2}n$이다.

정규분포

정규분포 $N(\mu, \sigma^{2})$의 엔트로피는 (자연로그를 택했을 때) 다음과 같다.

$$ H = \dfrac{1}{2} \ln (2\pi e \sigma^{2}) = \ln \sqrt{2\pi e \sigma^{2}} $$

평균 $\mu$는 엔트로피에 영향을 미치지 않는다. 이를 보일 때 $p(x) = \dfrac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left( - \dfrac{(x-\mu)^{2}}{2\sigma^{2}} \right)$의 적분이 $1$이라는 것을 이용한다.

$$ \begin{align*} H &= - \int_{-\infty}^{\infty} p(x) \ln p(x) dx \\ &= - \int_{-\infty}^{\infty} p(x) \ln \left[ \dfrac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left( - \dfrac{(x-\mu)^{2}}{2\sigma^{2}} \right) \right] dx \\ &= - \int_{-\infty}^{\infty} p(x) \ln \dfrac{1}{\sqrt{2\pi\sigma^{2}}} dx - \int_{-\infty}^{\infty} p(x) \ln \exp\left( - \dfrac{(x-\mu)^{2}}{2\sigma^{2}} \right) dx \\ &= -\ln \dfrac{1}{\sqrt{2\pi\sigma^{2}}} + \int_{-\infty}^{\infty} p(x) \dfrac{(x-\mu)^{2}}{2\sigma^{2}} dx \\ &= \ln \sqrt{2\pi\sigma^{2}} + \dfrac{1}{2\sigma^{2}}\int_{-\infty}^{\infty} p(x) (x-\mu)^{2} dx \\ &= \ln \sqrt{2\pi\sigma^{2}} + \dfrac{1}{2\sigma^{2}} E[(X-\mu)^{2}] \\ &= \ln \sqrt{2\pi\sigma^{2}} + \dfrac{1}{2\sigma^{2}}\sigma^{2} \\ &= \ln \sqrt{2\pi\sigma^{2}} + \dfrac{1}{2} \\ &= \ln \sqrt{2\pi\sigma^{2}} + \ln \sqrt{e} \\ &= \ln \sqrt{2\pi e \sigma^{2}} \end{align*} $$

$n$차원에 대해 일반화하면 다음과 같다. 이때 $\left| K \right|$는 공분산 행렬 $K$의 행렬식이다.

$$ H = \dfrac{1}{2}\ln (2 \pi e)^{n} \left| K \right| $$

같이보기


  1. 김영훈·허재성, 양자 정보 이론 (2020), p246 ↩︎

  2. Stephen M. Barnett, Quantum Information (2009), p7-10 ↩︎

댓글