샤넌 엔트로피: 확률변수로 정의되는 엔트로피

샤넌 엔트로피: 확률변수로 정의되는 엔트로피

Shannon entropy

개요

샤넌 엔트로피Shannon Entropy 혹은 정보 엔트로피확률변수로 정의되는 무질서에 대한 척도로써, 확률분포 상 얼마나 불확실한지에 대한 계량화로 볼 수 있다.

쉽고 복잡한 정의

이산형 엔트로피 1

이산확률변수 $X$ 의 확률질량함수가 $p(x)$ 일 때, $X$ 의 엔트로피를 다음과 같이 나타낸다. $$ H(X) := - \sum p(x) \log_{2} p(x) $$

연속형 엔트로피 2

연속확률변수 $X$ 의 값이 확률밀도함수가 $f(x)$ 일 때, $X$ 의 엔트로피를 다음과 같이 나타낸다. $$ H(X) := - \int_{-\infty}^{\infty} f(x) \log_{2} f(x) dx $$

어렵고 간단한 정의

확률변수 $X$ 에 대해 샤넌정보 $I(X)$ 의 기대값 $H(X)$ 를 엔트로피라 한다. $$ H(X) := E(I(X)) $$

설명

확률변수 $X, Y$ 의 확률질량함수가 $p, q$ 일 때, 엔트로피는 다음과 같이 나타내기도 한다. $$ H(X) = H(p) \\ H(Y) = H(q) $$

엔트로피는 과학 전반에서 널리쓰이는 개념으로써, 어디서 어떤 식으로 정의되었든 그 추상적인 의미는 대개 ‘무질서한 정도’다. 열역학에서 말하는 엔트로피와는 언뜻 상관이 없어보이지만 깁스의 엔트로피 표현 $$ S = - k_{B} \sum_{i} P_{i} \ln P_{i} $$ 에 따르면 그 모양도 소름돋을 정도로 흡사하며, 역사적으로도 관계가 깊다. 일화에는 $H(X)$ 를 발견하고 그 중요성을 처음 발견한 클로드 섀넌Claude Shannon이 $H(X)$ 에 어떤 이름을 붙일지 폰 노이만Von Neumann에게 상담했을 때, 폰 노이만은 다음과 같이 답했다고 한다:

두가지 이유로, $H$ 는 엔트로피라 불러야한다. 첫째, 그 함수는 이미 열역학에서 그 엔트로피라 불리고 있다. 둘째, 대부분의 사람들은 엔트로피가 무엇인지 진정으로 모르기 때문에 어떤 논쟁이든 ‘엔트로피’라는 단어만 쓰면 이길 수 있을 것이다.

무질서도

정보량의 기대값인 엔트로피가 어떻게 자연스럽게 무질서도를 나타내는지 알아보자.

확률 $p$ 가 주어진 베르누이분포 를 생각해보자. 이를테면 앞면이 나올 확률이 $p \in (0,1)$ 로 조작된 동전을 상상하면 좋다. 이 때 동전의 앞뒷면을 나타내는 확률변수 $X$ 의 엔트로피는 정확히 다음과 같이 계산될 것이다. $$ H(X) = - p \log_{2} p - (1-p) \log_{2} (1-p) $$ $p$ 가 $0$ 이나 $1$ 에 가까우면 가까울수록 불확실성은 줄어들고 무질서도는 올라간다고 볼 수 있을 것이다. 앞면이 나올 확률이 $90\% $ 인 동전을 던져서 앞뒤를 맞추는 게임이 있다면 굳이굳이 뒷면으로 찍을 필요 없이 조금이라도 유리한 앞면을 찍을 것이다. 실제로 계산해보고 이러한 직관과 일치하는지 확인하자. 만약 $p = 1/4$ 면 $$ \begin{align*} H(X) =& - {{ 1 } \over { 4 }} \log_{2} {{ 1 } \over { 4 }} - {{ 3 } \over { 4 }} \log_{2} {{ 3 } \over { 4 }} \\ =& {{ 1 } \over { 4 }} \log_{2} 4 - {{ 3 } \over { 4 }} \left( \log_{2} 3 - \log_{2} 4 \right) \\ =& {{ 1 } \over { 2 }} - {{ 3 } \over { 4 }} \log_{2} 3 + {{ 3 } \over { 2 }} \\ =& 2 - {{ 3 } \over { 4 }} \log_{2} 3 \end{align*} $$ 이 값을 실수로 계산해보면 한 $0.81$ 정도쯤 된다. 이제 $p = 1/2$ 일 때를 계산해보면 $$ \begin{align*} H(X) =& - {{ 1 } \over { 2 }} \log_{2} {{ 1 } \over { 2 }} - {{ 1 } \over { 2 }} \log_{2} {{ 1 } \over { 2 }} \\ =& {{ 1 } \over { 2 }} + {{ 1 } \over { 2 }} \\ =& 1 \end{align*} $$ 으로 $p=1/4$ 일 때보다 엔트로피가 커졌음을 볼 수 있었다. 실제로 이는 앞일지 뒤일지 전혀 알 수 없는, 가장 혼란스럽고 무질서한 상태다.

또다른 예로써 일양분포 $\text{Uni}(a,b)$ 를 따르는 확률변수 $X$ 를 생각해보면 그 엔트로피는 $$ \begin{align*} H(X) =& - \int_{a}^{b} {{ 1 } \over { b-a }} \log_{2} {{ 1 } \over { b-a }} dx \\ =& \log_{2} \left( b-a \right) \end{align*} $$ 와 같이 간단하게 계산될 수 있다. 엔트로피는 무질서도의 척도라고 했는데, $b$ 와 $a$ 사이의 간격이 커진다는 것은 $X$ 의 범위가 넓어져서 어떤 값일지 근접하게 찍는 것이 점점 어려워지는 동시에 $\log_{2} (b-a)$ 가 커진다는 것이기도 하다. 이로써 엔트로피는 자연스럽게 무질서함의 척도임을 살펴보았다.

쉬운 정의의 한계

사실 어느정도 공부가 된 사람이라면 쉬운 정의와 어려운 정의는 차이가 없어보여야한다. 다만 조금 더 일반적으로 쓰였을 뿐이고, 어려운 정의는 쉬운 정의를 모두 커버한다. 참고문헌에서 이산형 엔트로피의 정의는 사건이 유한한 경우로만 정의되며, 연속형 엔트로피를 정의하는 것까진 좋으나 극한 컨셉으로 접근했을 때 문제가 있음을 지적했다.

추상적으로 보았을 때 샤넌 정보는 사건별로 원래의 확률분포를 가지고 그 정보량에 대응시키는 확률변수기 때문에 이산과 연속 둘 중 하나로 굳이 정해질 필요가 없고, 유한, 무한, 가산, 불가산, 적분범위 등등을 고려할 필요도 없다. 정보량의 정의부터 문제가 있다면 몰라도, 거기에 문제가 없다면 엔트로피는 ‘정보량의 기대값’으로써 간단하게 정의될 수 있다.

같이보기


  1. Applebaum. (2008). Probability and Information(2nd Edition): p108. ↩︎

  2. Applebaum. (2008). Probability and Information(2nd Edition): p180. ↩︎

댓글