古典情報理論におけるシャノン・エントロピー古典情報理論におけるシャノン・エントロピー
定義
離散確率変数 Xが n個の値 x1,x2,…,xnを取るとする。 Xの確率質量関数を pとする。すると、XあるいはpのエントロピーShannon entropyHを次のように定義する。
H(X)=H(p):=E[I(xi)]=i=1∑np(xi)I(xi)=−i=1∑np(xi)log2p(xi)
この時、Iは情報量、Eは期待値である。
Xが連続確率変数の場合、
H(X)=H(p)=−∫−∞∞p(x)log2p(x)dx
説明
簡単に言えば、エントロピーは情報の期待値(平均)です。エントロピーを通じて、符号化の効率や通信の限界について数学的に扱うことができます。
エントロピーは一般に無秩序度と説明されますが、ここで言う秩序とは規則、傾向、パターンなどの意味で考えれば良いです。従って、エントロピーが高いとは無秩序度が高いことを意味し、確率変数Xに対して規則やパターンを把握することが難しいという話です。
ここで、確率が操作されたコイン投げを考えてみましょう。表が出る確率をpとすれば、裏が出る確率は1−pで、エントロピーは次のようになります。
H=−plog2p−(1−p)log2(1−p)
pに対するHをグラフにすると、次のようになります。

表が出る確率が21の時、エントロピーはH=−21log221−21log221=1で最大値です。つまり、コイン投げのパターンや規則をよく知ることができないという意味です。実際にコイン投げの場合、私たちはコインのどの面が出るかを確信することはできません。ここで表が出る確率が少し変わると、エントロピーが下がります。例えば、表が出る確率が10095であれば、エントロピーは約0.28で無秩序度が低く、つまり何らかの規則やパターン(この例ではほぼ表が出るというパターン)があるという意味です。この内容を次のようにまとめることができます。
エントロピーが高い = 無秩序度が高い = 規則性やパターンがない = 結果を予測するのが難しい
エントロピーが低い = 無秩序度が低い = 規則性やパターンがある = 結果を予測するのが容易
上の例から予想できるように、一般的にn個の場合があるとすると、エントロピーが最も高くなるのは全ての確率がn1で等しい時です。
性質
確率変数Xがn個の値 x1,x2,…,xnを取るとする。エントロピーHは次のような性質を持ちます。
- Hは凹concave関数です。
- あるxiに対してp(xi)=1ならば、H(X)=0です。
- 全ての確率がp(xi)=n1で同じ時、エントロピーは最大で、その値はlog2nです。
- 平均が0で共分散行列がKのランダムベクトルX∈Rnのエントロピーについて次が成立します。
H(X)≤21ln[(2πe)p∣K∣]
∣K∣は共分散行列の行列式です。Xが正規分布なら等号が成立します。
- 平均μと分散σ2が与えられた時、エントロピーが最大の分布は正規分布です。
- 確率変数Xと推定量X^に対して次が成立します。
E[(X−X^)2]≥2πe1e2H(X)
証明
4
便宜上x=Xと表記しましょう。gを∫g(x)xixjdx=Kijを満たす任意の確率密度関数とします。ϕを
正規分布N(0,K)の確率密度関数とします。
ϕ(x)=(2π)p∣K∣1exp(−21xTK−1x)
まず式∫g(x)lnϕ(x)dx=∫ϕ(x)lnϕ(x)dxが成立することを示します。lnϕ(x)を先に計算すると、
lnϕ(x)=ln(2π)p∣K∣1−21xTK−1x=C+∑aijxixj
第一項はある定数Cとして表せ、第二項もK−1に依存するある定数ajiの二次形式として表せます。従って、
∫g(x)lnϕ(x)dx=C∫g(x)dx+∫g(x)∑aijxixjdx=C+∑aij∫g(x)xixjdx=C+∑aijKijby assumption for g
また、
∫ϕ(x)lnϕ(x)dx=C∫ϕ(x)dx+∫ϕ(x)∑aijxixjdx=C+∑aij∫ϕ(x)xixjdx=C+∑aijKijby definition of covariance
\begin{align*}
\int \phi (\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x}
&= C \int \phi (\mathbf{x}) d \mathbf{x} + \int \phi (\mathbf{x})\sum a_{ij}x_{i}x_{j} d \mathbf{x} \\
&= C + \sum a_{ij} \int \phi (\mathbf{x}) x_{i}x_{j} d \mathbf{x} \\
&= C + \sum a_{ij}K_{ij} \qquad \text{by definition of covariance}
\end{align*}
∫ϕ(x)lnϕ(x)dx=C∫ϕ(x)dx+∫ϕ(x)∑aijxixjdx=C+∑aij∫ϕ(x)xixjdx=C+∑aijKijby definition of covariance
相対エントロピーは常に000以上であるため、
0≤D(g∥ϕ)=∫glngϕ=∫glng−∫glnϕ=−H(g)−∫ϕlnϕ=−H(g)+H(ϕ)
\begin{align*}
0
&\le D(g \| \phi) \\
&= \int g \ln \dfrac{g}{\phi} \\
&= \int g \ln g - \int g \ln \phi \\
&= - H(g) - \int \phi \ln \phi \\
&= - H(g) + H(\phi)
\end{align*}
0≤D(g∥ϕ)=∫glnϕg=∫glng−∫glnϕ=−H(g)−∫ϕlnϕ=−H(g)+H(ϕ)
正規分布のエントロピーは12ln[(2πe)n∣K∣]\dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right]21ln[(2πe)n∣K∣]なので、
H(X)=H(g)≤H(ϕ)=12ln[(2πe)n∣K∣]
H(X) = H(g) \le H(\phi) = \dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right]
H(X)=H(g)≤H(ϕ)=21ln[(2πe)n∣K∣]
ここでXXXを1次元確率変数としましょう。
E[(X−X^)2]≥minXE[(X−X^)2]=E[(X−E(X))2]=Var(X)
\begin{align*}
E\left[ (X - \hat{X})^{2} \right]
&\ge \min_{X} E\left[ (X - \hat{X})^{2} \right] \\
&= E\left[ (X - E(X))^{2} \right] \\
&= \Var(X)
\end{align*}
E[(X−X^)2]≥XminE[(X−X^)2]=E[(X−E(X))2]=Var(X)
(2)(2)(2)が1次元の時、次の式を得ます。
H(X)≤12ln(2πeσ2) ⟹ 2H(X)≤ln(2πeσ2) ⟹ e2H(X)≤2πeσ2 ⟹ 12πee2H(X)≤σ2=Var(X)
\begin{align*}
&& H(X) &\le \dfrac{1}{2} \ln(2\pi e \sigma^{2}) \\
\implies && 2H(X) &\le \ln(2\pi e \sigma^{2}) \\
\implies && e^{2H(X)} &\le 2\pi e \sigma^{2} \\
\implies && \dfrac{1}{2\pi e}e^{2H(X)} &\le \sigma^{2} = \Var(X) \\
\end{align*}
⟹⟹⟹H(X)2H(X)e2H(X)2πe1e2H(X)≤21ln(2πeσ2)≤ln(2πeσ2)≤2πeσ2≤σ2=Var(X)
この式に代入すると、
E[(X−X^)2]≥12πee2H(X)
E\left[ (X - \hat{X})^{2} \right] \ge \dfrac{1}{2\pi e} e^{2H(X)}
E[(X−X^)2]≥2πe1e2H(X)
正規分布N(μ,σ2)N(\mu, \sigma^{2})N(μ,σ2)のエントロピーは(自然対数を用いた場合)次のようになります。
H=12ln(2πeσ2)=ln2πeσ2
H = \dfrac{1}{2} \ln (2\pi e \sigma^{2}) = \ln \sqrt{2\pi e \sigma^{2}}
H=21ln(2πeσ2)=ln2πeσ2
多変量正規分布Nn(μ,K)N_{n}(\boldsymbol{\mu}, K)Nn(μ,K)のエントロピーは次のようになります。
H=12ln[(2πe)n∣K∣]=12ln(det(2πeK))
H = \dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right] = \dfrac{1}{2}\ln (\det (2\pi e K))
H=21ln[(2πe)n∣K∣]=21ln(det(2πeK))
関連項目