샤넌 정보: 확률론으로 정의되는 정보
빌드업
카드 맞추기 게임
앨리스와 밥이 조커 없는 트럼프 카드 덱 52장 중 하나를 뒷면으로 뽑고 어떤 카드인지 맞추는 내기를 한다고 상상해보자.
앨리스: 뽑은 카드는 조커가 아니다.
듣자마자 밥이 표정을 찌푸린다. 말이야 맞는 말인데, 너무 당연히 맞는 말이라서 아무런 의미가 없기 때문이다. 내기에 앞서 배당에 대한 합의가 필요해보인다. 두 사람은 우선 막연하게 좁힌 범위의 장수를 $r$ 이라고 할 때 판돈의 $1 - r/52$ 을 가져가기로 한다. 분모가 $52$인 이유는 그냥 카드가 52장이기 때문이다.(i) 방금 앨리스는 52장을 $r=52$ 장으로 줄였으니 이겼을 때 받는 보상이 없다. 만약 카드를 정확하게 맞춘다면 판돈의 거의 전부를 가져간다. 이 게임에서 어떤 전략이 가장 최적인지는 나중에 고민해보도록하고, 당장은 카드에 집중해보자.
밥: 문양은 하트다.
앨리스: 수는 $7$이다.
실제로 뽑은 카드가 어떤지는 둘째치고, 지금 두 사람의 발언이 각자 사실이라면 누구의 배당이 더 높아야할까? 밥은 네 문양 중 하나로 특정했으니 $1/4$로, 앨리스는 13가지 끗수 중 하나로 특정했으니 $1/13$으로 줄였다. 아무런 지식이 없는 상태에서 앨리스의 말이 맞을 확률이 더 낮은데, 이를 정보로 생각해보자면 앨리스의 추측은 밥의 추측보다 더 가치있다고 말할 수 있을 것이다.(ii)
이때 밥은 문양을 찍고 앨리스는 끗수를 찍은 것에 주목해보자. 트럼프 카드는 어떤 문양에 어떤 숫자가 없다거나 추가되거나 하지 않기 때문에, 뽑힌 카드의 문양과 끗수는 아무런 패턴을 가지지 않는다. 양 쪽이 서로에 대한 힌트를 가지고 있지 않으니, ‘하트 7이다’라는 추측의 가치는 둘의 가치를 손실 없이 온전히 더한 형태여야 할 것이다.(iii)
위와 같은 비유에서 말의 가치란 아무렇게나 찍는다고 맞는 게 아닐 때 높아지는 것을 보았다. 이렇듯 ‘정보의 양’이라는 개념을 그것이 사실일 확률로써 정의될 수 있다것에 동의할 수 있다면 비유들을 수식으로 옮겨적어보자. 아래에서 ‘사건’은 ‘말’에 대응될 것이다.
정보가 만족해야할 조건
사건의 정보 $I$ 는 다음의 조건을 만족하는 함수여야할 것이다.
- (i): 모든 사건 $E$ 에 대해 $$ I(E) \ge 0 $$
- (ii): 두 사건 $E_{1} , E_{2}$ 에 대해 $P \left( E_{1} \right) \le P \left( E_{2} \right)$ 면 $$ I \left( E_{1} \right) \ge I \left( E_{2} \right) $$
- (iii): 두 사건 $E_{1} , E_{2}$ 가 서로 독립이면 $$ I \left( E_{1} \cap E_{2} \right) = I \left( E_{1} \right) + I \left( E_{2} \right) $$
예로써 어떤 상수 $K, a$ 에 대해 $$ I(E) := -K \log_{a} \left( P (E) \right) $$ 라 정의하면 $I$ 는 위의 각 호를 모두 만족시킨다. 로그함수 안에 들어가는 값이 확률이므로 $1$ 을 넘길 수 없어 (i)을 만족시키고, 원래 $\log$ 가 증가함수이므로 (ii)도 쉽게 만족시킨다. 주목할만한 조건은 (iii)인데 두 사건이 독립일 때 로그함수는 $$ \begin{align*} I \left( E_{1} + E_{2} \right) =& -K \log_{a} \left( P \left( E_{1} \cap E_{2} \right) \right) \\ =& -K \log_{a} \left( P \left( E_{1} \right) P \left( E_{2} \right) \right) \\ =& -K \log_{a} \left( P \left( E_{1} \right) \right) -K \log_{a} \left( P \left( E_{2} \right) \right) \\ =& I \left( E_{1} \right) + I \left( E_{2} \right) \end{align*} $$ 를 쉽게 만족시키지만, 로그함수 외엔 세번째 줄처럼 논리적 곱이 함수 밖으로 나오면서 덧셈이 되는 함수를 좀처럼 찾을 수가 없다. 사실은 로그 뿐임이 증명되어 있고, 그래서 실제로도 $K=1, a=2$ 라 두고 다음과 같이 정의하게 된다.
어려운 정의
확률공간 $\left( \Omega , \mathcal{F}, P \right)$ 이 주어져 있다고 하자. 다음과 같이 정의되는 $I$ 를 샤넌 정보shannon information 혹은 정보량information Content이라 한다.
사건의 정보량 1
사건 $E \in \mathcal{F}$ 의 정보량 $I(E)$ 은 다음과 같이 정의된다.
$$ I(E) := - \log_{2} P(E) $$
확률변수의 정보량
주어진 확률공간에서 정의된 확률변수 $X$ 에 대한 정보량은 다음과 같은 확률분포를 가지는 또 다른 일변량 확률변수 $I(X) : \mathcal{F} \to \mathbb{R}^{1}$ 로 정의된다.
$$ I \left( X (E) \right) := - \log_{2} P(E) \qquad \text{ with probability } P(E) $$
설명
정보이론에서 보통 로그의 밑은 별다른 언급이 없어도 $e$ 가 아닌 $2$ 고, 단위도 비트bit를 사용한다.
빌드업을 이해했다면 왜 하필 로그 안에 확률을 넣은 게 정보량으로 정의되었는지는 납득하기 어렵지 않을 것이다. 문제는 왜 사건을 확률변수로 확장하냐는 것일텐데, 이 역시 확률변수라는 게 결국 현실 속 사건을 우리가 다루는 수학의 세계로 대응시키는 함수라는 것을 되새기면 이해가 될 것이다. 기존의 확률변수 $X$ 와 정확히 같은 분포를 가지지만, 단지 그 확률분포가 가리키는 것이 정보량이길 바랄 뿐이다.
어려워도 괜찮다
정의에서 확률공간이 뭔지 잘 모르겠어도 너무 걱정할 필요 없다. 참고문헌에서는 확률변수의 정보량이 이렇게까지 어렵게 정의되지 않았으나, 오히려 샤넌 엔트로피로 이어지는 논의를 생각해보면 이 정의가 가장 쉽고 간결해 임의로 고친 것이다.
사실 쉬운 정의라고 해도 그게 측도론/확률론 수준의 수학적인 지식이 없어도 된다는 뜻이지 개념 자체가 쉬워지지는 않는다. 수학, 통계학, 머신러닝씩이나 할 게 아니라면 엄밀한 수학까지 깊게 파고들 필요 없으니 어떤 개념인지만 파악하고 넘어가도록 하자.
같이보기
Applebaum. (2008). Probability and Information(2nd Edition): p107. ↩︎