クロスエントロピー 📂確率論

クロスエントロピー

概論

クロスエントロピーは、二つの確率分布を区別するために必要な平均ビット数であり、通常、真と仮定される（リファレンス）確率分布$p$と、これを推定するための（予想される）確率分布$q$の間で定義される。

定義 ¹

離散

二つの離散確率分布の確率質量関数$p,q$が与えられたとする。二つの確率分布のクロスエントロピー$H (p,q)$は、以下のように定義される。 $$ H (p,q) := - \sum p(x) \log_{2} q(x) $$

連続

測度空間$( \Omega , \mathcal{F}, m)$の$m$が測度であるとする。$f,g$がそれぞれ二つの確率測度$P,Q$の測度$m$に対して絶対連続な確率密度関数であるならば、二つの確率分布のクロスエントロピー$H (P,Q)$または$H(f,g)$は、以下のように定義される。 $$ H (P,Q) = H(f,g) = - \int f(x) \log_{2} g(x) dm(x) $$

説明

連続型クロスエントロピーの定義が難解であることは、それほど神経質にならなくても良い。

マシンラーニング

2010年以降、クロスエントロピーは、特に分類器の学習過程で活発に使われている損失関数である。二つの確率分布の乖離を示すクルバック・ライブラー情報量$D_{\text{KL}} \left( p \| q \right)$と、自己エントロピー$H(p)$に関して示せば $$ H(p,q) = H(p) + D_{\text{KL}} \left( p \| q \right) $$ $p=q$の時、$D_{\text{KL}} \left( p \| q \right) = 0$を目指す目的関数（損失関数）として使われる。分類問題の文脈では、$p$は実際のデータから出た確率―例えば、写真の中の被写体が犬か猫かを示すラベリングであり、$q$は分類器が計算した結果―犬である確率70%、猫である確率20%、飛行機である確率5%…と考えれば良い。これがほぼ一致すること、つまり$p \approx q$であることは、分類器がラベリングをほぼ正確に予測し、クロスエントロピーが最小化されるという意味になる。

数学に詳しくて鋭い読者なら、ふと目的関数で$D_{\text{KL}} \left( p \| q \right)$だけが重要ではないかと疑問に思うかもしれない。 $H(p)$が単独、（リファレンス）エントロピーであれば計算上に変わることがないので、ただ$D_{\text{KL}} \left( p \| q \right)$自体を損失関数として使う方が効率的に見える。しかし、コンピュータの立場から見れば $$ \begin{align*} H (p,q) =& - \sum p(x) \log_{2} q(x) \\ D_{\text{KL}} \left( p \| q \right) =& - \sum p(x) \log_{2} {{ q(x) } \over { p(x) }} \end{align*} $$ 計算しやすい方は、明らかにクロスエントロピーだ。どっちにしろ、最適化（学習）結果は同じだから、わざわざ$q(x) / p(x)$を計算する必要はない。$H(p)$が変わることがないから$D_{\text{KL}} \left( p \| q \right)$を使わないのではなく、その逆で、クロスエントロピーを使う理由になる。結論は「損失関数の文脈では、クロスエントロピーとクルバック・ライブラー情報量は概念的にまったく同じだ」ということだ。

もちろん、これはコンピュータの計算に関することであり、実際には、行列分解を扱う論文などでは、数式的な展開の便宜のために、クロスエントロピーではなくクルバック・ライブラー情報量を使うこともある。

表記

ちなみに、$H(X,Y)$のような表現はジョイントエントロピーと重なるが、意外とクロスエントロピー自体が単独で使われることは、上で述べたマシンラーニングの文脈の時以外にはあまりないので、勉強している時を除いては特に混乱することはないだろう。しかし、二つの表現が重なることを知っておく価値はある。

https://en.wikipedia.org/wiki/Cross_entropy#Definition ↩︎

クロスエントロピー

概論

定義 1

離散

連続

説明

マシンラーニング

表記

定義 ¹