logo

条件付きエントロピー 📂確率論

条件付きエントロピー

定義 1

確率変数 X1,,XnX_{1}, \cdots , X_{n} の結合確率質量関数 pp または結合確率密度関数 ff が与えられているとする。H(X1,,XnXk)H \left( X_{1}, \cdots , X_{n} | X_{k} \right)XkX_{k} が与えられている場合の X1,,XnX_{1}, \cdots , X_{n}条件付きエントロピーconditional Entropyという。

離散

H(X1,,XnXk):=x1xnp(x1,,xn)log2p(x1,,xn)p(xk) H \left( X_{1}, \cdots , X_{n} | X_{k} \right) := - \sum_{x_{1}} \cdots \sum_{x_{n}} p \left( x_{1} , \cdots , x_{n} \right) \log_{2} {{ p \left( x_{1} , \cdots , x_{n} \right) } \over { p(x_{k}) }}

連続

H(X1,,XnXk):=RRf(x1,,xn)log2f(x1,,xn)f(xk)dx1dxn H \left( X_{1}, \cdots , X_{n} | X_{k} \right) := - \int_{\mathbb{R}} \cdots \int_{\mathbb{R}} f \left( x_{1} , \cdots , x_{n} \right) \log_{2} {{ f \left( x_{1} , \cdots , x_{n} \right) } \over { f(x_{k}) }} d x_{1} \cdots d x_{n}


  • 表現がめちゃくちゃで正確には書いてないけど、X1XnX_{1} \cdots X_{n}の間にはXkX_{k}がない。でも、x1,,xnx_{1} , \cdots , x_{n}の間にはxkx_{k}がある。

定理

  • [1] 二つの確率変数X,YX,Yに対して以下が成り立つ。 H(X,Y)=H(X)+H(YX) H(X,Y) = H(X) + H \left( Y | X \right) 特に、XXYY が独立であれば H(XY)=H(X)H(YX)=H(Y) H \left( X | Y \right) = H(X) \\ H \left( Y | X \right) = H(Y)
  • [2] チェーンルール: H(X1,,Xn)=H(X1)+H(XkX1,,Xk1)=H(X1)+H(X2X1)+H(X3X1,X2)++H(Xn)+H(XkX1,,Xn1) \begin{align*} H \left( X_{1}, \cdots , X_{n} \right) =& H \left( X_{1} \right) + H \left( X_{k} | X_{1} , \cdots , X_{k-1} \right) \\ =& H \left( X_{1} \right) + H \left( X_{2} | X_{1} \right) + H \left( X_{3} | X_{1}, X_{2} \right) + \cdots \\ & + H \left( X_{n} \right) + H \left( X_{k} | X_{1} , \cdots , X_{n-1} \right) \end{align*}

説明

言葉通り、ジョイントエントロピーから追加的な条件が与えられた時のエントロピーだ。直感的に式を理解すると H(YX)=H(X,Y)H(X) H \left( Y | X \right) = H(X,Y) - H(X) は元々のH(X,Y)H(X,Y)の無秩序さからXXの情報が提供されてH(X)H(X)の不確実性が解消されたものと見ることができる。チェーンルールchain ruleはその一般化だ。


  1. Applebaum. (2008). Probability and Information(2nd Edition): p236. ↩︎