쉽게 말해서 엔트로피란 정보의 기대값(평균)이다. 엔트로피를 통해 부호화의 효율과 통신의 한계에 대해서 수학적으로 다룰 수 있다.
엔트로피는 흔히 무질서도라고 설명되는데 여기서 말하는 질서란 규칙, 경향, 패턴 등의 의미로 생각하면 된다. 따라서 엔트로피가 높다는 것은 무질서도가 높다는 것이고, 이는 확률변수 X에 대해서 규칙이나 패턴을 파악하기가 어렵다는 얘기이다.
이제 확률이 조작된 동전 던지기를 생각해보자. 앞면이 나올 확률을 p라고 하면, 뒷면이 나올 확률은 1−p이고 엔트로피는 다음과 같다.
H=−plog2p−(1−p)log2(1−p)
p에 대한 H를 그래프로 그리면 다음과 같다.
앞면이 나올 확률이 21일 때, 엔트로피는 H=−21log221−21log221=1이고 가장 큰 값이다. 다시 말해 동전 던지기의 패턴이나 규칙을 잘 알 수 없다는 의미이다. 실제로 동전 던지기의 경우 우리는 동전의 어느 면이 나올지 확신할 수 없다. 여기서 앞면이 나올 확률이 조금이라도 바뀌면 엔트로피가 내려간다. 만약 앞면이 나올 확률이 10095이라면, 엔트로피는 약 0.28이고 무질서도가 낮다, 즉 어떤 규칙이나 패턴(이 예에서는 거의 앞면이 나온다는 패턴)이 있다는 의미이다. 이 내용을 다음과 같이 정리할 수 있다.
엔트로피가 높다 = 무질서도가 높다 = 규칙성이나 패턴이 없다 = 결과를 예측하기 힘들다 엔트로피가 낮다 = 무질서도가 낮다 = 규칙성이나 패턴이 있다 = 결과를 예측하기 쉽다
위의 예시에서부터 예상할 수 있듯이, 일반적으로 n가지의 경우가 있다고 할 때 엔트로피가 가장 높게 되는 건 모든 확률이 n1으로 같을 때이다.
성질
확률변수 X가 n개의 값 x1,x2,…,xn을 취할 수 있다고 하자. 엔트로피 H는 다음과 같은 성질을 갖는다.
확률변수 X와 추정량X^에 대해서 다음이 성립한다.
E[(X−X^)2]≥2πe1e2H(X)
증명
4
편의상 x=X라고 표기하자. g를 ∫g(x)xixjdx=Kij를 만족하는 임의의 확률밀도함수라고 하자. ϕ를 정규분포 N(0,K)의 확률밀도함수라고 하자.
ϕ(x)=(2π)p∣K∣1exp(−21xTK−1x)
우선 식 ∫g(x)lnϕ(x)dx=∫ϕ(x)lnϕ(x)dx가 성립함을 보일 것이다. lnϕ(x)를 먼저 계산하면,
lnϕ(x)=ln(2π)p∣K∣1−21xTK−1x=C+∑aijxixj
첫번째 항은 어떤 상수 C로 표현할 수 있고, 두번째 항도 K−1에만 의존하는 어떤 상수 aji에 대한 이차형식으로 표현할 수 있다. 따라서
∫g(x)lnϕ(x)dx=C∫g(x)dx+∫g(x)∑aijxixjdx=C+∑aij∫g(x)xixjdx=C+∑aijKijby assumption for g
또한
∫ϕ(x)lnϕ(x)dx=C∫ϕ(x)dx+∫ϕ(x)∑aijxixjdx=C+∑aij∫ϕ(x)xixjdx=C+∑aijKijby definition of covariance
\begin{align*}
\int \phi (\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x}
&= C \int \phi (\mathbf{x}) d \mathbf{x} + \int \phi (\mathbf{x})\sum a_{ij}x_{i}x_{j} d \mathbf{x} \\
&= C + \sum a_{ij} \int \phi (\mathbf{x}) x_{i}x_{j} d \mathbf{x} \\
&= C + \sum a_{ij}K_{ij} \qquad \text{by definition of covariance}
\end{align*}
∫ϕ(x)lnϕ(x)dx=C∫ϕ(x)dx+∫ϕ(x)∑aijxixjdx=C+∑aij∫ϕ(x)xixjdx=C+∑aijKijby definition of covariance