シャノン情報:確率論によって定義される情報
ビルドアップ
カード合わせゲーム
ジョーカーを除いたトランプカード52枚のうち一枚を裏向きに引き、どのカードか当てる賭けをアリスとボブがしていると想像してみよう。
アリス: 引いたカードはジョーカーではない。
これを聞いてすぐにボブが顔をしかめる。確かに正しいが、あまりにも当たり前すぎて何の意味もないからだ。賭けに先立って、掛け金についての同意が必要だろう。二人はまず、曖昧にカードの枚数が$r$に絞られた場合、賭け金の$1 - r/52$を取ることにする。分母が$52$である理由は、単にカードが52枚あるからだ。(i) アリスは52枚を$r=52$枚に減らしたので、この場合勝っても報酬がない。カードを正確に当てた場合、賭け金のほとんど全部を獲得する。このゲームで最も最適な戦略は何か後で考えるとして、今はカードに集中しよう。
ボブ: 模様はハートだ。
アリス: 数字は$7$だ。
実際に引かれたカードはともかく、今両者の発言がそれぞれ事実だとすると、どちらの配当が高くなければならないだろうか?ボブは4つの模様のうちの一つを特定したので$1/4$に、アリスは13の数字のうちの一つを特定したので$1/13$に絞った。何の知識もない状態からアリスの言葉が正しい確率が低いので、これを情報として考えるとアリスの推測はボブの推測よりも価値があると言えるだろう。(ii)
この時、ボブが模様を予想し、アリスが数字を予想したことに注目しよう。トランプカードは、どの模様にも追加されたり欠けたりする数字はないので、引かれたカードの模様と数字は何のパターンも持たない。互いにヒントを持っていないので、「ハートの7」という推測の価値は、二つの推測の価値を損なうことなく完全に合算された形であるべきだろう。(iii)
このような比喩から、当てずっぽうではなく正しいときに話の価値が上がることが分かった。この「情報の量」という概念がそれが事実である確率として定義できると同意できるなら、これらの比喩を式に写し取ってみよう。「イベント」は「発言」に対応するものとなる。
情報が満たすべき条件
イベントの情報$I$は、次の条件を満たす関数でなければならない。
- (i): すべてのイベント$E$に対して $$ I(E) \ge 0 $$
- (ii): 2つのイベント$E_{1} , E_{2}$に対して$P \left( E_{1} \right) \le P \left( E_{2} \right)$ならば $$ I \left( E_{1} \right) \ge I \left( E_{2} \right) $$
- (iii): 2つのイベント$E_{1} , E_{2}$が互いに独立している場合 $$ I \left( E_{1} \cap E_{2} \right) = I \left( E_{1} \right) + I \left( E_{2} \right) $$
例えばある定数$K, a$に対して $$ I(E) := -K \log_{a} \left( P (E) \right) $$ と定義すると、$I$は上記の各号を全て満たす。対数関数の中に入る値が確率であるため、$1$を超えることができず、(i)を満たし、元の関数$\log$が増加関数であるため、(ii)も容易に満たされる。注目すべき条件は(iii)で、二つのイベントが独立しているとき、対数関数は $$ \begin{align*} I \left( E_{1} + E_{2} \right) =& -K \log_{a} \left( P \left( E_{1} \cap E_{2} \right) \right) \\ =& -K \log_{a} \left( P \left( E_{1} \right) P \left( E_{2} \right) \right) \\ =& -K \log_{a} \left( P \left( E_{1} \right) \right) -K \log_{a} \left( P \left( E_{2} \right) \right) \\ =& I \left( E_{1} \right) + I \left( E_{2} \right) \end{align*} $$ を容易に満たすが、対数関数以外には、論理積が関数の外に出て加算になるような関数をなかなか見つけることができない。実際には対数関数だけであり、そのため実際には$K=1, a=2$と定義される。
難しい定義
確率空間$\left( \Omega , \mathcal{F}, P \right)$が与えられたとする。以下のように定義される$I$は、シャノン情報もしくは情報量と呼ばれる。
イベントの情報量 1
イベント$E \in \mathcal{F}$の情報量$I(E)$は、以下のように定義される。
$$ I(E) := - \log_{2} P(E) $$
確率変数の情報量
与えられた確率空間で定義された確率変数$X$に対する情報量は、以下の確率分布を持つ別の一変量確率変数$I(X) : \mathcal{F} \to \mathbb{R}^{1}$として定義される。
$$ I \left( X (E) \right) := - \log_{2} P(E) \qquad \text{ with probability } P(E) $$
説明
情報理論では、一般に、特に記載がない限り、対数の底は$e$ではなく$2$であり、使用される単位はビットである。
ビルドアップを理解できれば、なぜ確率をロジックの中に入れて情報量として定義されたのか理解するのは難しくないはずだ。問題はなぜイベントを確率変数に拡張するかということだが、これも確率変数が結局、現実のイベントを我々が扱う数学の世界に対応させる関数だということを思い出せば理解できるだろう。現在の確率変数$X$と全く同じ分布を持つが、単にその確率分布が情報量を示してほしいというだけである。
難しくても大丈夫
定義で確率空間が何かよく分からなくとも心配する必要はない。参照文献では、確率変数の情報量がこれほど複雑に定義されていないが、シャノンエントロピーにつながる議論を考えると、この定義は最も簡単で簡潔であるということが考えられる。
実際に「簡単な」定義だとしても、そのために測度論/確率論のレベルの数学的な知識が不要であるという意味ではない。数学、統計学、機械学習などを深く学ぶのでなければ、厳密な数学を深く理解する必要はなく、概念だけを理解しておけばいい。
参照
Applebaum. (2008). Probability and Information(2nd Edition): p107. ↩︎