シャノンエントロピー：確率変数によって定義されるエントロピー 📂確率論

シャノンエントロピー：確率変数によって定義されるエントロピー

概要

シャノンエントロピー^{shannon Entropy}または情報エントロピーは、確率変数によって定義される無秩序の尺度であり、確率分布上でどれほど不確かであるかの量化と見なすことができる。

簡単かつ複雑な定義

離散エントロピー ¹

離散確率変数 $X$ の確率質量関数が $p(x)$ である場合、 $X$ のエントロピーは次のように表される。 $H(X) := - \sum p(x) \log_{2} p(x)$

連続エントロピー ²

連続確率変数 $X$ の値が確率密度関数 $f(x)$ である場合、 $X$ のエントロピーは次のように表される。 $H(X) := - \int_{-\infty}^{\infty} f(x) \log_{2} f(x) dx$

難しくも簡単な定義

確率変数 $X$ に対するシャノン情報 $I(X)$ の期待値 $H(X)$ をエントロピーという。 $H(X) := E(I(X))$

説明

確率変数 $X, Y$ の確率質量関数が $p, q$ である場合、エントロピーも次のように表されることがある。 $H(X) = H(p) \\ H(Y) = H(q)$

エントロピーは科学全般で広く使用される概念であり、どのように定義されていても、その抽象的な意味は一般に「無秩序の度合い」である。熱力学でのエントロピーとは一見関係ないように見えるかもしれないが、ギブスのエントロピー表現 $S = - k_{B} \sum_{i} P_{i} \ln P_{i}$ に従えば、その形も驚くほど似ており、歴史的にも深い関係がある。エピソードによると、クロード・シャノン^{claude Shannon}が $H(X)$ を発見し、その重要性を最初に認識したとき、どんな名前をつけるべきかジョン・フォン・ノイマン^{von Neumann}に相談したところ、フォン・ノイマンは次のように答えたという：

2つの理由で、 $H$ はエントロピーと呼ぶべきだ。第一に、その関数はすでに熱力学でエントロピーと呼ばれている。第二に、ほとんどの人がエントロピーが何であるか本当にわからないため、任意の議論で「エントロピー」という言葉を使えば勝つことができるだろう。

無秩序度

情報量の期待値であるエントロピーがどのように自然に無秩序度を表すか見てみよう。

確率 $p$ が与えられたベルヌーイ分布を考えてみよう。例えば、表が出る確率が $p \in (0,1)$ に操作されたコインを想像してみよう。この時、コインの表裏を表示する確率変数 $X$ のエントロピーは正確に次のように計算されるだろう。 $H(X) = - p \log_{2} p - (1-p) \log_{2} (1-p)$ $p$ が $0$ や $1$ に近ければ近いほど、不確実性は減少し、無秩序度は上がると考えられる。表が出る確率が $90\%$ のコインを投げて表裏を当てるゲームがある場合、わざわざ裏を選ぶ必要はなく、少しでも有利な表を選ぶだろう。実際に計算して、この直観と一致するか確認してみよう。もし $p = 1/4$ であれば、 $\begin{align*} H(X) =& - {{ 1 } \over { 4 }} \log_{2} {{ 1 } \over { 4 }} - {{ 3 } \over { 4 }} \log_{2} {{ 3 } \over { 4 }} \\ =& {{ 1 } \over { 4 }} \log_{2} 4 - {{ 3 } \over { 4 }} \left( \log_{2} 3 - \log_{2} 4 \right) \\ =& {{ 1 } \over { 2 }} - {{ 3 } \over { 4 }} \log_{2} 3 + {{ 3 } \over { 2 }} \\ =& 2 - {{ 3 } \over { 4 }} \log_{2} 3 \end{align*}$ この値を実数で計算すると、約 $0.81$ 程度になる。今、 $p = 1/2$ の場合を計算してみると、 $\begin{align*} H(X) =& - {{ 1 } \over { 2 }} \log_{2} {{ 1 } \over { 2 }} - {{ 1 } \over { 2 }} \log_{2} {{ 1 } \over { 2 }} \\ =& {{ 1 } \over { 2 }} + {{ 1 } \over { 2 }} \\ =& 1 \end{align*}$ $p=1/4$ の場合よりもエントロピーが大きくなったことがわかる。実際に、これは前もって表か裏か全く分からない、最も混乱し、無秩序な状態を表している。

別の例として、一様分布 $\text{Uni}(a,b)$ に従う確率変数 $X$ を考えてみると、そのエントロピーは $\begin{align*} H(X) =& - \int_{a}^{b} {{ 1 } \over { b-a }} \log_{2} {{ 1 } \over { b-a }} dx \\ =& \log_{2} \left( b-a \right) \end{align*}$ として簡単に計算できる。エントロピーは無秩序度の尺度と言われているが、 $b$ と $a$ の間隔が広がることは、 $X$ の範囲が広がり、どのような値になるかを密接に予想することがより困難になると同時に、 $\log_{2} (b-a)$ も大きくなることを意味する。これにより、エントロピーが自然に無秩序の尺度であることが確認できた。

簡単な定義の限界

ある程度学んだ人なら、簡単な定義と難しい定義には違いがないように見えるべきだ。後者は単により一般的であり、前者が述べているすべてをカバーしている。参考文献での離散エントロピーの定義は事象が有限の場合にのみ定義されており、連続エントロピーを定義することは良いが、限界の概念でアプローチしたときに問題があると指摘されている。

抽象的に見れば、シャノン情報は元の確率分布にイベント毎にそれに対応する情報量を割り当てる確率変数であるため、わざわざ離散か連続かを定義する必要はなく、有限、無限、可算、不可算、積分範囲などを考慮する必要もない。情報量の定義に問題がなければ、エントロピーは「情報量の期待値」として簡単に定義できる。

Applebaum. (2008). Probability and Information(2nd Edition): p108。 ↩︎
Applebaum. (2008). Probability and Information(2nd Edition): p180。 ↩︎