고전정보이론에서 조건부 엔트로피란?
양자정보이론 | ||||||||||||||||
[ 펼치기 · 접기 ]
|
빌드업1 2
이산확률변수 $X$와 이의 확률질량함수 $p(x)$에 대해서 $X$의 엔트로피 $H(X)$는 다음과 같이 정의된다.
$$ H(X) = - \sum_{i} p(x_{i}) \log_{2}p(x_{i}) $$
비슷하게 $X, Y$의 결합 확률질량함수 $p(x,y)$에 대해서 결합 엔트로피 $H(X, Y)$는 다음과 같이 정의된다.
$$ H(X, Y) = - \sum_{i, j} p(x_{i}, y_{j}) \log_{2}p(x_{i}, y_{j}) $$
그러면 $Y = y_{j}$일 때의 조건부 확률 $p(x_{i} | y_{j})$에 대해서 $H(X | Y=y_{j})$를 다음과 같이 정의할 수 있을 것이다.
$$ \begin{equation} H(X | Y=y_{j}) = - \sum_{i} p(x_{i} | y_{j}) \log_{2}p(x_{i} | y_{j}) \end{equation} $$
그러면 자연스럽게 $H(X | Y)$를 다음과 같이 모든 $y_{j}$에 대한 $H(X | Y=y_{j})$의 기댓값으로 정의할 수 있다. 이를 조건부 엔트로피라 하자.
$$ \begin{equation} \begin{aligned} H(X | Y) &:= \sum_{j} p(y_{j})H(X | Y=y_{j}) \\ &= -\sum_{i, j} p(y_{j})p(x_{i} | y_{j}) \log_{2}p(x_{i} | y_{j}) \\ &= -\sum_{i, j} p(x_{i}, y_{j}) \log_{2}p(x_{i} | y_{j}) \\ \end{aligned} \end{equation} $$
정의
이산확률변수 $X, Y$에 대해서, 조건부 엔트로피conditional entropy를 다음과 같이 정의한다.
$$ \begin{equation} H(X | Y) = -\sum_{i, j} p(x_{i}, y_{j}) \log_{2}p(x_{i} | y_{j}) \end{equation} $$
연속확률변수라면,
$$ H(X|Y) = - \int_{-\infty}^{\infty}p(x,y)\log_{2}p(x|y)dxdy $$
설명
조건부 엔트로피의 정의를 $(3)$으로 처음 접하면 왜 $p(x|y)$가 아니라 $p(x,y)$를 곱하는 건지 이해하기 어려울거다. $(1)$의 기댓값으로 정의되는거라고 생각하면 $(3)$의 수식을 납득하기 쉬울 것이다. 다시 말해서, 조건부 엔트로피란 조건부 확률의 정보 $-\log_{2}p(x | y)$의 기댓값이다.
성질
$$ H(X | Y) = H(X, Y) - H(Y) $$
$(2)$로부터 바로 얻을 수 있다.
$$ \begin{align*} H(X | Y) &= - \sum_{i, j} p(y_{j})p(x_{i} | y_{j}) \log_{2}p(x_{i} | y_{j}) \\ &= - \sum_{i, j} p(x_{i}, y_{j}) \log_{2} \dfrac{p(x_{i}, y_{j})}{p(y_{j})} \\ &= - \sum_{i, j} p(x_{i}, y_{j}) \log_{2} p(x_{i}, y_{j}) + \sum_{i, j} p(x_{i}, y_{j}) \log_{2} p(y_{j}) \\ &= H(X, Y) + \sum_{j} \left( \sum_{i} p(x_{i}, y_{j}) \right) \log_{2} p(y_{j}) \\ &= H(X, Y) + \sum_{j} p(y_{j}) \log_{2} p(y_{j}) \\ &= H(X, Y) - H(Y) \end{align*} $$
이항하면 $H(X, Y) = H(X | Y) + H(Y)$인데 엔트로피는 확률에 로그를 씌운 것이니 $p(x, y) = p(x | y) p(y)$에서 곱이 합으로 바뀌었다고 받아들여도 좋다.