logo

条件付きエントロピー 📂確率論

条件付きエントロピー

定義 1

確率変数 $X_{1}, \cdots , X_{n}$ の結合確率質量関数 $p$ または結合確率密度関数 $f$ が与えられているとする。$H \left( X_{1}, \cdots , X_{n} | X_{k} \right)$ を$X_{k}$ が与えられている場合の $X_{1}, \cdots , X_{n}$の条件付きエントロピーconditional Entropyという。

離散

$$ H \left( X_{1}, \cdots , X_{n} | X_{k} \right) := - \sum_{x_{1}} \cdots \sum_{x_{n}} p \left( x_{1} , \cdots , x_{n} \right) \log_{2} {{ p \left( x_{1} , \cdots , x_{n} \right) } \over { p(x_{k}) }} $$

連続

$$ H \left( X_{1}, \cdots , X_{n} | X_{k} \right) := - \int_{\mathbb{R}} \cdots \int_{\mathbb{R}} f \left( x_{1} , \cdots , x_{n} \right) \log_{2} {{ f \left( x_{1} , \cdots , x_{n} \right) } \over { f(x_{k}) }} d x_{1} \cdots d x_{n} $$


  • 表現がめちゃくちゃで正確には書いてないけど、$X_{1} \cdots X_{n}$の間には$X_{k}$がない。でも、$x_{1} , \cdots , x_{n}$の間には$x_{k}$がある。

定理

  • [1] 二つの確率変数$X,Y$に対して以下が成り立つ。 $$ H(X,Y) = H(X) + H \left( Y | X \right) $$ 特に、$X$ と $Y$ が独立であれば $$ H \left( X | Y \right) = H(X) \\ H \left( Y | X \right) = H(Y) $$
  • [2] チェーンルール: $$ \begin{align*} H \left( X_{1}, \cdots , X_{n} \right) =& H \left( X_{1} \right) + H \left( X_{k} | X_{1} , \cdots , X_{k-1} \right) \\ =& H \left( X_{1} \right) + H \left( X_{2} | X_{1} \right) + H \left( X_{3} | X_{1}, X_{2} \right) + \cdots \\ & + H \left( X_{n} \right) + H \left( X_{k} | X_{1} , \cdots , X_{n-1} \right) \end{align*} $$

説明

言葉通り、ジョイントエントロピーから追加的な条件が与えられた時のエントロピーだ。直感的に式を理解すると $$ H \left( Y | X \right) = H(X,Y) - H(X) $$ は元々の$H(X,Y)$の無秩序さから$X$の情報が提供されて$H(X)$の不確実性が解消されたものと見ることができる。チェーンルールchain ruleはその一般化だ。


  1. Applebaum. (2008). Probability and Information(2nd Edition): p236. ↩︎