古典情報理論における条件付きエントロピーとは?古典情報理論における条件付きエントロピーとは?
ビルドアップ
離散確率変数 Xとその確率質量関数 p(x)において、Xのエントロピー H(X)は以下のように定義されます。
H(X)=−i∑p(xi)log2p(xi)
同様に、X,Yの結合確率質量関数 p(x,y)における結合エントロピー H(X,Y)は以下のように定義されます。
H(X,Y)=−i,j∑p(xi,yj)log2p(xi,yj)
すると、Y=yjの時の条件付き確率 p(xi∣yj)についてH(X∣Y=yj)は以下のように定義できるでしょう。
H(X∣Y=yj)=−i∑p(xi∣yj)log2p(xi∣yj)
自然に、H(X∣Y)を全てのyjにおけるH(X∣Y=yj)の期待値として定義できます。これを条件付きエントロピーと呼びましょう。
H(X∣Y):=j∑p(yj)H(X∣Y=yj)=−i,j∑p(yj)p(xi∣yj)log2p(xi∣yj)=−i,j∑p(xi,yj)log2p(xi∣yj)
定義
離散確率変数 X,Yに対して、条件付きエントロピーconditional entropyは以下のように定義します。
H(X∣Y)=−i,j∑p(xi,yj)log2p(xi∣yj)
連続確率変数の場合、
H(X∣Y)=−∫−∞∞p(x,y)log2p(x∣y)dxdy
説明
条件付きエントロピーの定義を(3)として最初に接すると、なぜp(x∣y)ではなくp(x,y)を掛けるのか理解しにくいかもしれません。(1)の期待値として定義されていると考えれば、(3)の式を納得しやすくなります。つまり、条件付きエントロピーは条件付き確率の情報量 −log2p(x∣y)の期待値です。
性質
H(X∣Y)=H(X,Y)−H(Y)
(2)から直接得られます。
H(X∣Y)=−i,j∑p(yj)p(xi∣yj)log2p(xi∣yj)=−i,j∑p(xi,yj)log2p(yj)p(xi,yj)=−i,j∑p(xi,yj)log2p(xi,yj)+i,j∑p(xi,yj)log2p(yj)=H(X,Y)+j∑(i∑p(xi,yj))log2p(yj)=H(X,Y)+j∑p(yj)log2p(yj)=H(X,Y)−H(Y)
展開するとH(X,Y)=H(X∣Y)+H(Y)になりますが、エントロピーは確率のログなので、積が和に変わったと受け入れても良いでしょう。