고전정보이론에서 엔트로피란?
양자정보이론 | ||||||||||||||||
[ 펼치기 · 접기 ]
|
정의1 2
이산확률변수 $X$가 $n$개의 값 $x_{1}, x_{2}, \dots, x_{n}$을 취할 수 있다고 하자. $X$의 확률질량함수를 $p$라고 하자. 그러면 $X$ 혹은 $p$의 엔트로피Shannon entropy $H$를 다음과 같이 정의한다.
$$ \begin{equation} H(X) = H(p) := E\left[ I(x_{i}) \right] = \sum_{i=1}^{n} p(x_{i}) I(x_{i}) = -\sum_{i=1}^{n} p(x_{i}) \log_{2}p(x_{i}) \end{equation} $$
$X$가 연속확률변수라면,
$$ H(X) = H(p) = - \int_{-\infty}^{\infty} p(x)\log_{2}p(x) dx $$
설명
쉽게 말해서 엔트로피란 정보의 기대값(평균)이다. 엔트로피를 통해 부호화의 효율과 통신의 한계에 대해서 수학적으로 다룰 수 있다.
엔트로피는 흔히 무질서도라고 설명되는데 여기서 말하는 질서란 규칙, 경향, 패턴 등의 의미로 생각하면 된다. 따라서 엔트로피가 높다는 것은 무질서도가 높다는 것이고, 이는 확률변수 $X$에 대해서 규칙이나 패턴을 파악하기가 어렵다는 얘기이다.
이제 확률이 조작된 동전 던지기를 생각해보자. 앞면이 나올 확률을 $p$라고 하면, 뒷면이 나올 확률은 $1-p$이고 엔트로피는 다음과 같다.
$$ H = -p\log_{2}p - (1-p)\log_{2}(1-p) $$
$p$에 대한 $H$를 그래프로 그리면 다음과 같다.
앞면이 나올 확률이 $\dfrac{1}{2}$일 때, 엔트로피는 $H = -\dfrac{1}{2}\log_{2}\dfrac{1}{2}-\dfrac{1}{2}\log_{2}\dfrac{1}{2} = 1$이고 가장 큰 값이다. 다시 말해 동전 던지기의 패턴이나 규칙을 잘 알 수 없다는 의미이다. 실제로 동전 던지기의 경우 우리는 동전의 어느 면이 나올지 확신할 수 없다. 여기서 앞면이 나올 확률이 조금이라도 바뀌면 엔트로피가 내려간다. 만약 앞면이 나올 확률이 $\dfrac{95}{100}$이라면, 엔트로피는 약 $0.28$이고 무질서도가 낮다, 즉 어떤 규칙이나 패턴(이 예에서는 거의 앞면이 나온다는 패턴)이 있다는 의미이다. 이 내용을 다음과 같이 정리할 수 있다.
엔트로피가 높다 = 무질서도가 높다 = 규칙성이나 패턴이 없다 = 결과를 예측하기 힘들다
엔트로피가 낮다 = 무질서도가 낮다 = 규칙성이나 패턴이 있다 = 결과를 예측하기 쉽다
위의 예시에서부터 예상할 수 있듯이, 일반적으로 $n$가지의 경우가 있다고 할 때 엔트로피가 가장 높게 되는 건 모든 확률이 $\dfrac{1}{n}$으로 같을 때이다.
성질
확률변수 $X$가 $n$개의 값 $x_{1}, x_{2}, \dots, x_{n}$을 취할 수 있다고 하자. 엔트로피 $H$는 다음과 같은 성질을 갖는다.
- $H$는 오목concave 함수이다.
- 어떤 $x_{i}$에 대해 $p(x_{i}) = 1$이면, $H(X) = 0$이다.
- 모든 확률이 $p(x_{i}) = \dfrac{1}{n}$로 같을 때, 엔트로피는 최대이며 그 값은 $\log_{2}n$이다.
- 평균이 $\mathbf{0}$이고 공분산행렬이 $K$인 랜덤벡터 $X \in \mathbb{R}^{n}$의 엔트로피에 대해서 다음이 성립한다. $$ \begin{equation} H(X) \le \dfrac{1}{2}\ln \left[ (2 \pi e)^{p} \left| K \right| \right] \end{equation} $$ $\left| K \right|$는 공분산행렬의 행렬식이다. $X$가 정규분포이면 등호가 성립한다.
증명
4
편의상 $\mathbf{x} = X$라고 표기하자. $g$를 $\displaystyle \int g(\mathbf{x})x_{i}x_{j} d \mathbf{x} = K_{ij}$를 만족하는 임의의 확률밀도함수라고 하자. $\phi$를 정규분포 $N(\mathbf{0}, K)$의 확률밀도함수라고 하자. $$ \phi (\mathbf{x}) = \dfrac{1}{\sqrt{(2\pi)^{p} \left| K \right|}} \exp \left( -\dfrac{1}{2}\mathbf{x}^{T} K^{-1} \mathbf{x} \right) $$ 우선 식 $\displaystyle \int g(\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x} = \int \phi (\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x}$가 성립함을 보일 것이다. $\ln \phi (\mathbf{x})$를 먼저 계산하면,
$$ \begin{align*} \ln \phi (\mathbf{x}) &= \ln\dfrac{1}{\sqrt{(2\pi)^{p} \left| K \right|}} - \dfrac{1}{2}\mathbf{x}^{T} K^{-1} \mathbf{x} \\ &= C + \sum a_{ij} x_{i} x_{j} \end{align*} $$
첫번째 항은 어떤 상수 $C$로 표현할 수 있고, 두번째 항도 $K^{-1}$에만 의존하는 어떤 상수 $a_{ji}$에 대한 이차형식으로 표현할 수 있다. 따라서
$$ \begin{align*} \int g(\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x} &= C \int g(\mathbf{x}) d \mathbf{x} + \int g(\mathbf{x})\sum a_{ij}x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij} \int g(\mathbf{x}) x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij}K_{ij} \qquad \text{by assumption for $g$} \end{align*} $$
또한
$$ \begin{align*} \int \phi (\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x} &= C \int \phi (\mathbf{x}) d \mathbf{x} + \int \phi (\mathbf{x})\sum a_{ij}x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij} \int \phi (\mathbf{x}) x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij}K_{ij} \qquad \text{by definition of covariance} \end{align*} $$
$$ \begin{align*} 0 &\le D(g \| \phi) \\ &= \int g \ln \dfrac{g}{\phi} \\ &= \int g \ln g - \int g \ln \phi \\ &= - H(g) - \int \phi \ln \phi \\ &= - H(g) + H(\phi) \end{align*} $$
정규분포의 엔트로피는 $\dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right]$이므로,
$$ H(X) = H(g) \le H(\phi) = \dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right] $$
이제 $X$를 1차원 확률변수라고 하자.
$$ \begin{align*} E\left[ (X - \hat{X})^{2} \right] &\ge \min_{X} E\left[ (X - \hat{X})^{2} \right] \\ &= E\left[ (X - E(X))^{2} \right] \\ &= \Var(X) \end{align*} $$
$(2)$가 1차원일 때 다음의 식을 얻는다.
$$ \begin{align*} && H(X) &\le \dfrac{1}{2} \ln(2\pi e \sigma^{2}) \\ \implies && 2H(X) &\le \ln(2\pi e \sigma^{2}) \\ \implies && e^{2H(X)} &\le 2\pi e \sigma^{2} \\ \implies && \dfrac{1}{2\pi e}e^{2H(X)} &\le \sigma^{2} = \Var(X) \\ \end{align*} $$
위의 식에 대입하면,
$$ E\left[ (X - \hat{X})^{2} \right] \ge \dfrac{1}{2\pi e} e^{2H(X)} $$
정규분포의 엔트로피
정규분포 $N(\mu, \sigma^{2})$의 엔트로피는 (자연로그를 택했을 때) 다음과 같다.
$$ H = \dfrac{1}{2} \ln (2\pi e \sigma^{2}) = \ln \sqrt{2\pi e \sigma^{2}} $$
다변량 정규분포 $N_{n}(\boldsymbol{\mu}, K)$의 엔트로피는 다음과 같다.
$$ H = \dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right] = \dfrac{1}{2}\ln (\det (2\pi e K)) $$