logo

古典情報理論におけるシャノン・エントロピー

古典情報理論におけるシャノン・エントロピー

양자정보이론
[ 펼치기 · 접기 ]

定義1 2

離散確率変数 $X$が $n$個の値 $x_{1}, x_{2}, \dots, x_{n}$を取るとする。 $X$の確率質量関数を $p$とする。すると、$X$あるいは$p$のエントロピーShannon entropy$H$を次のように定義する。

$$ \begin{equation} H(X) = H(p) := E\left[ I(x_{i}) \right] = \sum_{i=1}^{n} p(x_{i}) I(x_{i}) = -\sum_{i=1}^{n} p(x_{i}) \log_{2}p(x_{i}) \end{equation} $$

この時、$I$は情報量、$E$は期待値である。

$X$が連続確率変数の場合、

$$ H(X) = H(p) = - \int_{-\infty}^{\infty} p(x)\log_{2}p(x) dx $$

説明

簡単に言えば、エントロピーは情報の期待値(平均)です。エントロピーを通じて、符号化の効率や通信の限界について数学的に扱うことができます。

エントロピーは一般に無秩序度と説明されますが、ここで言う秩序とは規則、傾向、パターンなどの意味で考えれば良いです。従って、エントロピーが高いとは無秩序度が高いことを意味し、確率変数$X$に対して規則やパターンを把握することが難しいという話です。

ここで、確率が操作されたコイン投げを考えてみましょう。表が出る確率を$p$とすれば、裏が出る確率は$1-p$で、エントロピーは次のようになります。

$$ H = -p\log_{2}p - (1-p)\log_{2}(1-p) $$

$p$に対する$H$をグラフにすると、次のようになります。

entropy.png

表が出る確率が$\dfrac{1}{2}$の時、エントロピーは$H = -\dfrac{1}{2}\log_{2}\dfrac{1}{2}-\dfrac{1}{2}\log_{2}\dfrac{1}{2} = 1$で最大値です。つまり、コイン投げのパターンや規則をよく知ることができないという意味です。実際にコイン投げの場合、私たちはコインのどの面が出るかを確信することはできません。ここで表が出る確率が少し変わると、エントロピーが下がります。例えば、表が出る確率が$\dfrac{95}{100}$であれば、エントロピーは約$0.28$で無秩序度が低く、つまり何らかの規則やパターン(この例ではほぼ表が出るというパターン)があるという意味です。この内容を次のようにまとめることができます。

エントロピーが高い = 無秩序度が高い = 規則性やパターンがない = 結果を予測するのが難しい
エントロピーが低い = 無秩序度が低い = 規則性やパターンがある = 結果を予測するのが容易

上の例から予想できるように、一般的に$n$個の場合があるとすると、エントロピーが最も高くなるのは全ての確率が$\dfrac{1}{n}$で等しい時です。

性質

確率変数$X$が$n$個の値 $x_{1}, x_{2}, \dots, x_{n}$を取るとする。エントロピー$H$は次のような性質を持ちます。

  1. $H$はconcave関数です。
  2. ある$x_{i}$に対して$p(x_{i}) = 1$ならば、$H(X) = 0$です。
  3. 全ての確率が$p(x_{i}) = \dfrac{1}{n}$で同じ時、エントロピーは最大で、その値は$\log_{2}n$です。
  4. 平均が$\mathbf{0}$で共分散行列が$K$のランダムベクトル$X \in \mathbb{R}^{n}$のエントロピーについて次が成立します。 $$ \begin{equation} H(X) \le \dfrac{1}{2}\ln \left[ (2 \pi e)^{p} \left| K \right| \right] \end{equation} $$ $\left| K \right|$は共分散行列行列式です。$X$が正規分布なら等号が成立します。
    • 平均$\mu$と分散$\sigma^{2}$が与えられた時、エントロピーが最大の分布は正規分布です。
    • 確率変数$X$と推定量$\hat{X}$に対して次が成立します。 $$ E\left[ (X - \hat{X})^{2} \right] \ge \dfrac{1}{2\pi e} e^{2H(X)} $$

証明

4

便宜上$\mathbf{x} = X$と表記しましょう。$g$を$\displaystyle \int g(\mathbf{x})x_{i}x_{j} d \mathbf{x} = K_{ij}$を満たす任意の確率密度関数とします。$\phi$を

正規分布$N(\mathbf{0}, K)$の確率密度関数とします。 $$ \phi (\mathbf{x}) = \dfrac{1}{\sqrt{(2\pi)^{p} \left| K \right|}} \exp \left( -\dfrac{1}{2}\mathbf{x}^{T} K^{-1} \mathbf{x} \right) $$ まず式$\displaystyle \int g(\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x} = \int \phi (\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x}$が成立することを示します。$\ln \phi (\mathbf{x})$を先に計算すると、

$$ \begin{align*} \ln \phi (\mathbf{x}) &= \ln\dfrac{1}{\sqrt{(2\pi)^{p} \left| K \right|}} - \dfrac{1}{2}\mathbf{x}^{T} K^{-1} \mathbf{x} \\ &= C + \sum a_{ij} x_{i} x_{j} \end{align*} $$

第一項はある定数$C$として表せ、第二項も$K^{-1}$に依存するある定数$a_{ji}$の二次形式として表せます。従って、

$$ \begin{align*} \int g(\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x} &= C \int g(\mathbf{x}) d \mathbf{x} + \int g(\mathbf{x})\sum a_{ij}x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij} \int g(\mathbf{x}) x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij}K_{ij} \qquad \text{by assumption for $g$} \end{align*} $$

また、

$$ \begin{align*} \int \phi (\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x} &= C \int \phi (\mathbf{x}) d \mathbf{x} + \int \phi (\mathbf{x})\sum a_{ij}x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij} \int \phi (\mathbf{x}) x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij}K_{ij} \qquad \text{by definition of covariance} \end{align*} $$

相対エントロピーは常に$0$以上であるため

$$ \begin{align*} 0 &\le D(g \| \phi) \\ &= \int g \ln \dfrac{g}{\phi} \\ &= \int g \ln g - \int g \ln \phi \\ &= - H(g) - \int \phi \ln \phi \\ &= - H(g) + H(\phi) \end{align*} $$

正規分布のエントロピーは$\dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right]$なので、

$$ H(X) = H(g) \le H(\phi) = \dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right] $$

ここで$X$を1次元確率変数としましょう。

$$ \begin{align*} E\left[ (X - \hat{X})^{2} \right] &\ge \min_{X} E\left[ (X - \hat{X})^{2} \right] \\ &= E\left[ (X - E(X))^{2} \right] \\ &= \Var(X) \end{align*} $$

$(2)$が1次元の時、次の式を得ます。

$$ \begin{align*} && H(X) &\le \dfrac{1}{2} \ln(2\pi e \sigma^{2}) \\ \implies && 2H(X) &\le \ln(2\pi e \sigma^{2}) \\ \implies && e^{2H(X)} &\le 2\pi e \sigma^{2} \\ \implies && \dfrac{1}{2\pi e}e^{2H(X)} &\le \sigma^{2} = \Var(X) \\ \end{align*} $$

この式に代入すると、

$$ E\left[ (X - \hat{X})^{2} \right] \ge \dfrac{1}{2\pi e} e^{2H(X)} $$

正規分布のエントロピー

正規分布$N(\mu, \sigma^{2})$のエントロピーは(自然対数を用いた場合)次のようになります。

$$ H = \dfrac{1}{2} \ln (2\pi e \sigma^{2}) = \ln \sqrt{2\pi e \sigma^{2}} $$

多変量正規分布$N_{n}(\boldsymbol{\mu}, K)$のエントロピーは次のようになります。

$$ H = \dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right] = \dfrac{1}{2}\ln (\det (2\pi e K)) $$

関連項目


  1. キム・ヨンフン・ホ・ジェソン, 量子情報理論 (2020), p246 ↩︎

  2. Stephen M. Barnett, Quantum Information (2009), p7-10 ↩︎