logo

古典情報理論におけるシャノン・エントロピー

古典情報理論におけるシャノン・エントロピー

양자정보이론
[ 펼치기 · 접기 ]

定義1 2

離散確率変数 XXnn個の値 x1,x2,,xnx_{1}, x_{2}, \dots, x_{n}を取るとする。 XX確率質量関数ppとする。すると、XXあるいはppエントロピーShannon entropyHHを次のように定義する。

H(X)=H(p):=E[I(xi)]=i=1np(xi)I(xi)=i=1np(xi)log2p(xi) \begin{equation} H(X) = H(p) := E\left[ I(x_{i}) \right] = \sum_{i=1}^{n} p(x_{i}) I(x_{i}) = -\sum_{i=1}^{n} p(x_{i}) \log_{2}p(x_{i}) \end{equation}

この時、II情報量EE期待値である。

XXが連続確率変数の場合、

H(X)=H(p)=p(x)log2p(x)dx H(X) = H(p) = - \int_{-\infty}^{\infty} p(x)\log_{2}p(x) dx

説明

簡単に言えば、エントロピーは情報の期待値(平均)です。エントロピーを通じて、符号化の効率や通信の限界について数学的に扱うことができます。

エントロピーは一般に無秩序度と説明されますが、ここで言う秩序とは規則、傾向、パターンなどの意味で考えれば良いです。従って、エントロピーが高いとは無秩序度が高いことを意味し、確率変数XXに対して規則やパターンを把握することが難しいという話です。

ここで、確率が操作されたコイン投げを考えてみましょう。表が出る確率をppとすれば、裏が出る確率は1p1-pで、エントロピーは次のようになります。

H=plog2p(1p)log2(1p) H = -p\log_{2}p - (1-p)\log_{2}(1-p)

ppに対するHHをグラフにすると、次のようになります。

entropy.png

表が出る確率が12\dfrac{1}{2}の時、エントロピーはH=12log21212log212=1H = -\dfrac{1}{2}\log_{2}\dfrac{1}{2}-\dfrac{1}{2}\log_{2}\dfrac{1}{2} = 1で最大値です。つまり、コイン投げのパターンや規則をよく知ることができないという意味です。実際にコイン投げの場合、私たちはコインのどの面が出るかを確信することはできません。ここで表が出る確率が少し変わると、エントロピーが下がります。例えば、表が出る確率が95100\dfrac{95}{100}であれば、エントロピーは約0.280.28で無秩序度が低く、つまり何らかの規則やパターン(この例ではほぼ表が出るというパターン)があるという意味です。この内容を次のようにまとめることができます。

エントロピーが高い = 無秩序度が高い = 規則性やパターンがない = 結果を予測するのが難しい
エントロピーが低い = 無秩序度が低い = 規則性やパターンがある = 結果を予測するのが容易

上の例から予想できるように、一般的にnn個の場合があるとすると、エントロピーが最も高くなるのは全ての確率が1n\dfrac{1}{n}で等しい時です。

性質

確率変数XXnn個の値 x1,x2,,xnx_{1}, x_{2}, \dots, x_{n}を取るとする。エントロピーHHは次のような性質を持ちます。

  1. HHconcave関数です。
  2. あるxix_{i}に対してp(xi)=1p(x_{i}) = 1ならば、H(X)=0H(X) = 0です。
  3. 全ての確率がp(xi)=1np(x_{i}) = \dfrac{1}{n}で同じ時、エントロピーは最大で、その値はlog2n\log_{2}nです。
  4. 平均が0\mathbf{0}共分散行列KKのランダムベクトルXRnX \in \mathbb{R}^{n}のエントロピーについて次が成立します。 H(X)12ln[(2πe)pK] \begin{equation} H(X) \le \dfrac{1}{2}\ln \left[ (2 \pi e)^{p} \left| K \right| \right] \end{equation} K\left| K \right|共分散行列行列式です。XXが正規分布なら等号が成立します。
    • 平均μ\muと分散σ2\sigma^{2}が与えられた時、エントロピーが最大の分布は正規分布です。
    • 確率変数XX推定量X^\hat{X}に対して次が成立します。 E[(XX^)2]12πee2H(X) E\left[ (X - \hat{X})^{2} \right] \ge \dfrac{1}{2\pi e} e^{2H(X)}

証明

4

便宜上x=X\mathbf{x} = Xと表記しましょう。ggg(x)xixjdx=Kij\displaystyle \int g(\mathbf{x})x_{i}x_{j} d \mathbf{x} = K_{ij}を満たす任意の確率密度関数とします。ϕ\phi

正規分布N(0,K)N(\mathbf{0}, K)の確率密度関数とします。 ϕ(x)=1(2π)pKexp(12xTK1x) \phi (\mathbf{x}) = \dfrac{1}{\sqrt{(2\pi)^{p} \left| K \right|}} \exp \left( -\dfrac{1}{2}\mathbf{x}^{T} K^{-1} \mathbf{x} \right) まず式g(x)lnϕ(x)dx=ϕ(x)lnϕ(x)dx\displaystyle \int g(\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x} = \int \phi (\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x}が成立することを示します。lnϕ(x)\ln \phi (\mathbf{x})を先に計算すると、

lnϕ(x)=ln1(2π)pK12xTK1x=C+aijxixj \begin{align*} \ln \phi (\mathbf{x}) &= \ln\dfrac{1}{\sqrt{(2\pi)^{p} \left| K \right|}} - \dfrac{1}{2}\mathbf{x}^{T} K^{-1} \mathbf{x} \\ &= C + \sum a_{ij} x_{i} x_{j} \end{align*}

第一項はある定数CCとして表せ、第二項もK1K^{-1}に依存するある定数ajia_{ji}二次形式として表せます。従って、

g(x)lnϕ(x)dx=Cg(x)dx+g(x)aijxixjdx=C+aijg(x)xixjdx=C+aijKijby assumption for g \begin{align*} \int g(\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x} &= C \int g(\mathbf{x}) d \mathbf{x} + \int g(\mathbf{x})\sum a_{ij}x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij} \int g(\mathbf{x}) x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij}K_{ij} \qquad \text{by assumption for gg} \end{align*}

また、

ϕ(x)lnϕ(x)dx=Cϕ(x)dx+ϕ(x)aijxixjdx=C+aijϕ(x)xixjdx=C+aijKijby definition of covariance \begin{align*} \int \phi (\mathbf{x}) \ln \phi (\mathbf{x}) d \mathbf{x} &= C \int \phi (\mathbf{x}) d \mathbf{x} + \int \phi (\mathbf{x})\sum a_{ij}x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij} \int \phi (\mathbf{x}) x_{i}x_{j} d \mathbf{x} \\ &= C + \sum a_{ij}K_{ij} \qquad \text{by definition of covariance} \end{align*}

相対エントロピーは常に00以上であるため

0D(gϕ)=glngϕ=glngglnϕ=H(g)ϕlnϕ=H(g)+H(ϕ) \begin{align*} 0 &\le D(g \| \phi) \\ &= \int g \ln \dfrac{g}{\phi} \\ &= \int g \ln g - \int g \ln \phi \\ &= - H(g) - \int \phi \ln \phi \\ &= - H(g) + H(\phi) \end{align*}

正規分布のエントロピーは12ln[(2πe)nK]\dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right]なので、

H(X)=H(g)H(ϕ)=12ln[(2πe)nK] H(X) = H(g) \le H(\phi) = \dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right]

ここでXXを1次元確率変数としましょう。

E[(XX^)2]minXE[(XX^)2]=E[(XE(X))2]=Var(X) \begin{align*} E\left[ (X - \hat{X})^{2} \right] &\ge \min_{X} E\left[ (X - \hat{X})^{2} \right] \\ &= E\left[ (X - E(X))^{2} \right] \\ &= \Var(X) \end{align*}

(2)(2)が1次元の時、次の式を得ます。

H(X)12ln(2πeσ2)    2H(X)ln(2πeσ2)    e2H(X)2πeσ2    12πee2H(X)σ2=Var(X) \begin{align*} && H(X) &\le \dfrac{1}{2} \ln(2\pi e \sigma^{2}) \\ \implies && 2H(X) &\le \ln(2\pi e \sigma^{2}) \\ \implies && e^{2H(X)} &\le 2\pi e \sigma^{2} \\ \implies && \dfrac{1}{2\pi e}e^{2H(X)} &\le \sigma^{2} = \Var(X) \\ \end{align*}

この式に代入すると、

E[(XX^)2]12πee2H(X) E\left[ (X - \hat{X})^{2} \right] \ge \dfrac{1}{2\pi e} e^{2H(X)}

正規分布のエントロピー

正規分布N(μ,σ2)N(\mu, \sigma^{2})エントロピーは(自然対数を用いた場合)次のようになります。

H=12ln(2πeσ2)=ln2πeσ2 H = \dfrac{1}{2} \ln (2\pi e \sigma^{2}) = \ln \sqrt{2\pi e \sigma^{2}}

多変量正規分布Nn(μ,K)N_{n}(\boldsymbol{\mu}, K)のエントロピーは次のようになります。

H=12ln[(2πe)nK]=12ln(det(2πeK)) H = \dfrac{1}{2}\ln \left[ (2 \pi e)^{n} \left| K \right| \right] = \dfrac{1}{2}\ln (\det (2\pi e K))

関連項目


  1. キム・ヨンフン・ホ・ジェソン, 量子情報理論 (2020), p246 ↩︎

  2. Stephen M. Barnett, Quantum Information (2009), p7-10 ↩︎