相対エントロピー、クルバック・ライブラー・ダイバージェンス
📂確率論相対エントロピー、クルバック・ライブラー・ダイバージェンス
ビルドアップ
二つの確率分布PとQがある時、これらがどれほど異なるかを気にするシチュエーションは簡単に想像できる。
例えば、カメラに撮られた数字が正確に何の数字かを当てる状況を考えてみよう。数字6と9は、上下を明確に示さなければ人間もかなり混乱するが、9を下に線を引く人もいれば引かない人もいるため、多数の人の筆跡データを集めると両方の中の一つを断定するのは困難になるだろう。
この状況で6と9を区別する人工知能を作ると考えてみよう。この分類器classifierが最も上手に学習するということ、つまり人間を最もよく模倣するということは、人が与えたデータから曖昧さを含む確率分布を最も類似して再現することになるだろう。自然な動機付けは「確率分布間の差異」に繋がり、これを最小化する技術を探求することで望む人工知能に一歩近づくだろう。
一方、上記の動機付けにおいて、二つの確率分布が等価である必要はなく、実は等価であると問題があるかもしれない。私たちが(基準)確率分布Pに関心を持つとする場合、QがPとどれほど違うかは関係ないが、比較する価値もないほど異なるのは困る。例えば、Pが二項分布であり、Qが指数分布であった場合、この両方の差異は縮めようがないある種の限界があり、縮めただけでは根本的に違いすぎるためだ。そのため、少なくともこの文脈では、Pが何らかの固定された基準だった方が良い。
ここで、具体的に二つを比較する関数を想像してみよう。距離関数のように何かの差異を考える時、関数解析学においてのように最も直感的な方法は、単純に二つの確率分布の確率密度関数p,qの差を考えることだ。
D(p,q)=?sup∣p(x)−q(x)∣
問題は、上の段落で指摘されたように、この定義が参照確率分布Pに対して関心がなさ過ぎることだ。このような定義だけでは、確率分布が違うために異なるのか、ただのパラメーターがおかしいのかが非常に曖昧だ。ここでシャノンエントロピーHを考えてみよう。
シャノンエントロピー:
H(P):=−∑p(x)log2p(x)
これは、期待値の概念で見れば、確率分布p(x)に関する連続関数−log2p(x)の平均、すなわちE(−log2p(X))である。これまでの議論から、エントロピーを上手く応用すれば、参照確率分布Pに関心を持ちながらも、二つの間の差異を適切に表現する関数を定義できるかもしれないと思える。ここでクロスエントロピーを思い出そう。
クロスエントロピー:
H(P,Q):=−∑p(x)log2q(x)
複雑に考えずに、上で述べた要素だけ全て入れてみれば、次のような関数DKL(P,Q)を考えることができる。
===?∣EP[log2q(X)−log2p(X)]∣−∑p(x)log2q(x)+∑p(x)log2p(x)∣H(P,Q)−H(P)∣DKL(P,Q)
定義
二つの確率分布P,Qの確率質量関数p,qまたは確率密度関数f,gが与えられているとする。そのように定義されたDKL(P∥Q)は、QからPへのクルバック・ライブラー ダイバージェンスkullback-Leibler Divergenceまたは相対エントロピーrelative Entropyと言われる。
DKL(P∥Q):==or=orH(P,Q)−H(P)−∑p(x)log2p(x)q(x)−∫Rf(x)log2f(x)g(x)dx
説明
DKL(P∥Q)=−∑pklog2pkqk
定義のみからクルバック・ライブラー ダイバージェンスの意味を理解するのは、数学専攻者にとっても簡単ではない。数式を受け入れるカギは、ログlog2にある。
DKL(P∥Q)===−∑pklog2pkqk−∑pklog2qk−(−∑pklog2pk)H(P,Q)−H(P)
ビルドアップで述べたように、単純な「差」が分数形式に変わるのは、ログのためだ。ログの中のpqを外に引き裂けば、引き算が出て、これがどのような意味を持つかを理解するかもしれない。もちろん、正確に知るためには、これだけでは不十分で、シャノンエントロピーとクロスエントロピーについてもちゃんと勉強しておく必要がある。
乖離を表すシンプルな測定法
ギブスの不等式によると、クロスエントロピーは常に単独エントロピー以上であり、従って常にDKL≥0である。一方、二つの分布が正確に同じ時、つまりp=qの時はp/q=1であり、
DKL(P∣Q)=−∑p(x)log2p(x)q(x)=−∑p(x)⋅0=0
そして、常識的にDKL=0を得る。直感的な意味で考えれば、クルバック・ライブラー ダイバージェンス自体がQがPとどれほど異なるかを表すものであるため、当然のことだ。
距離関数ではない
DKL(P∥Q)=DKL(Q∥P)
一般に、上のように対称性は成立しない。これは期待値を計算する際に参照確率分布をPとするためだ。これがQに変わると、クルバック・ライブラー ダイバージェンスもまたどれだけでも変わることができる。なぜなら、Pの視点ではQが異質に感じられるかもしれないが、Qの立場ではPと似ていると思うかもしれないと理解すればいい。このような相対性のために、クルバック・ライブラー ダイバージェンスは距離関数にならず、相対エントロピーとも呼ばれる。
機械学習
機械学習では、クルバック・ライブラー ダイバージェンスよりもクロスエントロピーの方がより広く知られている。実際、情報理論ではなく機械学習では、両者の間には概念的に大きな違いがなく、厳密に言えば、クルバック・ライブラー ダイバージェンスの方がより適切な関数かもしれないが、実際の計算ではクロスエントロピーの方が有利であるためだ。
クルバック・ライブラー ダイバージェンスではなくクロスエントロピーを使う理由: … 単独エントロピーH(p)に関して表現すれば
H(p,q)=H(p)+DKL(p∥q)
は、p=qの時にDKL(p∥q)=0となる目的関数(損失関数)として使われる。… H(p)が単独、(基準)エントロピーであれば計算で変わることはないが…。しかし、コンピュータから見れば
H(p,q)=DKL(p∥q)=−∑p(x)log2q(x)−∑p(x)log2p(x)q(x)
計算しやすい方は明らかにクロスエントロピーだ。…
したがって、概念研究はクルバック・ライブラー ダイバージェンスで、実際の