고전정보이론에서 엔트로피란? 📂양자정보이론

고전정보이론에서 엔트로피란?

양자정보이론

[ 펼치기 · 접기 ]

양자계산	논리게이트	비트 · 부울함수(AND · OR · NOT · XOR · NAND · NOR · CNOT · CCNOT · CSWAP) · 범용 게이트 · 복제 함수 · 사영 · 주입
	양자게이트	큐비트 · 양자 얽힘 · 양자 회로 · 양자 게이트(파울리 게이트 · 위상 게이트 · 아다마르 게이트 · 양자 CNOT · 교환 게이트 · 양자 CSWAP · 양자 CSWAP) · 솔베이-키타예프 정리 · 복제 불가 정리
정보이론	고전정보이론	정보량 · 엔트로피(결합 엔트로피 · 조건부 엔트로피 · 상대적 엔트로피 · 상호 정보 ) · 부호화 · 복호화
	양자정보이론	TBD · TBD · TBD
관련 분야
선형대수 · 양자역학

정의¹ ²

이산확률변수 $X$가 $n$개의 값 $x_{1}, x_{2}, \dots, x_{n}$을 취할 수 있다고 하자. $X$의 확률질량함수를 $p$라고 하자. 그러면 $X$ 혹은 $p$의 엔트로피^{Shannon entropy} $H$를 다음과 같이 정의한다.

$$ \begin{equation} H(X) = H(p) := E\left[ I(x_{i}) \right] = \sum_{i=1}^{n} p(x_{i}) I(x_{i}) = -\sum_{i=1}^{n} p(x_{i}) \log_{2}p(x_{i}) \end{equation} $$

이때 $I$는 정보량, $E$는 기댓값이다.

$X$가 연속확률변수라면,
$$ H(X) = H(p) = - \int_{-\infty}^{\infty} p(x)\log_{2}p(x) dx $$

설명

쉽게 말해서 엔트로피란 정보의 기대값(평균)이다. 엔트로피를 통해 부호화의 효율과 통신의 한계에 대해서 수학적으로 다룰 수 있다.

엔트로피는 흔히 무질서도라고 설명되는데 여기서 말하는 질서란 규칙, 경향, 패턴 등의 의미로 생각하면 된다. 따라서 엔트로피가 높다는 것은 무질서도가 높다는 것이고, 이는 확률변수 $X$에 대해서 규칙이나 패턴을 파악하기가 어렵다는 얘기이다.

이제 확률이 조작된 동전 던지기를 생각해보자. 앞면이 나올 확률을 $p$라고 하면, 뒷면이 나올 확률은 $1-p$이고 엔트로피는 다음과 같다.

$$ H = -p\log_{2}p - (1-p)\log_{2}(1-p) $$

$p$에 대한 $H$를 그래프로 그리면 다음과 같다.

앞면이 나올 확률이 $\dfrac{1}{2}$일 때, 엔트로피는 $H = -\dfrac{1}{2}\log_{2}\dfrac{1}{2}-\dfrac{1}{2}\log_{2}\dfrac{1}{2} = 1$이고 가장 큰 값이다. 다시 말해 동전 던지기의 패턴이나 규칙을 잘 알 수 없다는 의미이다. 실제로 동전 던지기의 경우 우리는 동전의 어느 면이 나올지 확신할 수 없다. 여기서 앞면이 나올 확률이 조금이라도 바뀌면 엔트로피가 내려간다. 만약 앞면이 나올 확률이 $\dfrac{95}{100}$이라면, 엔트로피는 약 $0.28$이고 무질서도가 낮다, 즉 어떤 규칙이나 패턴(이 예에서는 거의 앞면이 나온다는 패턴)이 있다는 의미이다. 이 내용을 다음과 같이 정리할 수 있다.

엔트로피가 높다 = 무질서도가 높다 = 규칙성이나 패턴이 없다 = 결과를 예측하기 힘들다
엔트로피가 낮다 = 무질서도가 낮다 = 규칙성이나 패턴이 있다 = 결과를 예측하기 쉽다

위의 예시에서부터 예상할 수 있듯이, 일반적으로 $n$가지의 경우가 있다고 할 때 엔트로피가 가장 높게 되는 건 모든 확률이 $\dfrac{1}{n}$으로 같을 때이다.

성질

확률변수 $X$가 $n$개의 값 $x_{1}, x_{2}, \dots, x_{n}$을 취할 수 있다고 하자. 엔트로피 $H$는 다음과 같은 성질을 갖는다.

$H$는 오목^concave 함수이다.
어떤 $x_{i}$에 대해 $p(x_{i}) = 1$이면, $H(X) = 0$이다.
모든 확률이 $p(x_{i}) = \dfrac{1}{n}$로 같을 때, 엔트로피는 최대이며 그 값은 $\log_{2}n$이다.
평균이 $\mathbf{0}$이고 공분산행렬이 $K$인 랜덤벡터 $X \in \mathbb{R}^{n}$의 엔트로피에 대해서 다음이 성립한다. $$ \begin{equation} H(X) \le \dfrac{1}{2}\ln \left[ (2 \pi e)^{p} \left| K \right| \right] \end{equation} $$ $\left| K \right|$는 공분산행렬의 행렬식이다. $X$가 정규분포이면 등호가 성립한다.
- 평균 $\mu$와 분산 $\sigma^{2}$이 주어졌을 때, 엔트로피가 최대인 분포는 정규분포이다.
- 확률변수 $X$와 추정량 $\hat{X}$에 대해서 다음이 성립한다. $$ E\left[ (X - \hat{X})^{2} \right] \ge \dfrac{1}{2\pi e} e^{2H(X)} $$

증명

4

편의상 $\mathbf{x} = X$라고 표기하자. $g$를 $\displaystyle \int g(\mathbf{x})x_{i}x_{j} d \mathbf{x} = K_{ij}$를 만족하는 임의의 확률밀도함수라고 하자. $\phi$를 정규분포 $N(\mathbf{0}, K)$의 확률밀도함수라고 하자. $$ \phi (\mathbf{x}) = \dfrac{1}{\sqrt{(2\pi)^{p} \left| K \right|}} \exp \left( -\dfrac{1}{2}\mathbf{x}^{T} K^{-1} \mathbf{x} \right) $$ 우선 식 $\displaystyle \int g(\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x} = \int \phi (\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x}$가 성립함을 보일 것이다. $\ln \phi (\mathbf{x})$를 먼저 계산하면,

$$ \begin{align*} \ln \phi (\mathbf{x}) &= \ln\dfrac{1}{\sqrt{(2\pi)^{p} \left| K \right|}} - \dfrac{1}{2}\mathbf{x}^{T} K^{-1} \mathbf{x} \\ &= C + \sum a_{ij} x_{i} x_{j} \end{align*} $$

첫번째 항은 어떤 상수 $C$로 표현할 수 있고, 두번째 항도 $K^{-1}$에만 의존하는 어떤 상수 $a_{ji}$에 대한 이차형식으로 표현할 수 있다. 따라서

$$ \begin{align*} \int g(\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x} &= C \int g(\mathbf{x}) d \mathbf{x} + \int g(\mathbf{x})\sum a_{ij}x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij} \int g(\mathbf{x}) x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij}K_{ij} \qquad \text{by assumption for $g$} \end{align*} $$

또한

$$ \begin{align*} \int \phi (\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x} &= C \int \phi (\mathbf{x}) d \mathbf{x} + \int \phi (\mathbf{x})\sum a_{ij}x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij} \int \phi (\mathbf{x}) x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij}K_{ij} \qquad \text{by definition of covariance} \end{align*} $$

상대적 엔트로피는 항상 $0$보다 크거나 같으므로,

$$ \begin{align*} 0 &\le D(g \| \phi) \\ &= \int g \ln \dfrac{g}{\phi} \\ &= \int g \ln g - \int g \ln \phi \\ &= - H(g) - \int \phi \ln \phi \\ &= - H(g) + H(\phi) \end{align*} $$

정규분포의 엔트로피는 $\dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right]$이므로,

$$ H(X) = H(g) \le H(\phi) = \dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right] $$

이제 $X$를 1차원 확률변수라고 하자.

$$ \begin{align*} E\left[ (X - \hat{X})^{2} \right] &\ge \min_{X} E\left[ (X - \hat{X})^{2} \right] \\ &= E\left[ (X - E(X))^{2} \right] \\ &= \Var(X) \end{align*} $$

$(2)$가 1차원일 때 다음의 식을 얻는다.

$$ \begin{align*} && H(X) &\le \dfrac{1}{2} \ln(2\pi e \sigma^{2}) \\ \implies && 2H(X) &\le \ln(2\pi e \sigma^{2}) \\ \implies && e^{2H(X)} &\le 2\pi e \sigma^{2} \\ \implies && \dfrac{1}{2\pi e}e^{2H(X)} &\le \sigma^{2} = \Var(X) \\ \end{align*} $$

위의 식에 대입하면,

$$ E\left[ (X - \hat{X})^{2} \right] \ge \dfrac{1}{2\pi e} e^{2H(X)} $$

정규분포의 엔트로피

정규분포 $N(\mu, \sigma^{2})$의 엔트로피는 (자연로그를 택했을 때) 다음과 같다.

$$ H = \dfrac{1}{2} \ln (2\pi e \sigma^{2}) = \ln \sqrt{2\pi e \sigma^{2}} $$

다변량 정규분포 $N_{n}(\boldsymbol{\mu}, K)$의 엔트로피는 다음과 같다.

$$ H = \dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right] = \dfrac{1}{2}\ln (\det (2\pi e K)) $$

같이보기

김영훈·허재성, 양자 정보 이론 (2020), p246 ↩︎
Stephen M. Barnett, Quantum Information (2009), p7-10 ↩︎