정규분포의 엔트로피
정리
정규분포 $N(\mu, \sigma^{2})$의 엔트로피는 (자연로그를 택했을 때) 다음과 같다.
$$ H = \dfrac{1}{2} \ln (2\pi e \sigma^{2}) = \ln \sqrt{2\pi e \sigma^{2}} $$
다변량 정규분포 $N_{p}(\boldsymbol{\mu}, \Sigma)$의 엔트로피는 다음과 같다.
$$ H = \dfrac{1}{2}\ln \left[ (2 \pi e)^{p} \left| \Sigma \right| \right] = \dfrac{1}{2}\ln (\det (2\pi e \Sigma)) $$
$\left| \Sigma \right|$는 공분산행렬의 행렬식이다.
설명
평균 $\mu$는 엔트로피에 영향을 미치지 않는다. 자연로그를 택했을 때 표준정규분포 $N(0,1)$의 엔트로피는 대략 $H = \ln \sqrt{2\pi e } \approx 1.4189385332046727$이다. 밑이 $2$인 로그를 택해도 공식의 꼴은 그대로이며 그 값은,
$$ H = \log_{2} \sqrt{2\pi e } \approx 2.047095585180641 $$
증명
일변량 정규분포
이를 보일 때 $p(x) = \dfrac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left( - \dfrac{(x-\mu)^{2}}{2\sigma^{2}} \right)$의 적분이 $1$이라는 것을 이용한다.
$$ \begin{align*} H &= - \int_{-\infty}^{\infty} p(x) \ln p(x) dx \\ &= - \int_{-\infty}^{\infty} p(x) \ln \left[ \dfrac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left( - \dfrac{(x-\mu)^{2}}{2\sigma^{2}} \right) \right] dx \\ &= - \int_{-\infty}^{\infty} p(x) \ln \dfrac{1}{\sqrt{2\pi\sigma^{2}}} dx - \int_{-\infty}^{\infty} p(x) \ln \exp\left( - \dfrac{(x-\mu)^{2}}{2\sigma^{2}} \right) dx \\ &= -\ln \dfrac{1}{\sqrt{2\pi\sigma^{2}}} + \int_{-\infty}^{\infty} p(x) \dfrac{(x-\mu)^{2}}{2\sigma^{2}} dx \\ &= \ln \sqrt{2\pi\sigma^{2}} + \dfrac{1}{2\sigma^{2}}\int_{-\infty}^{\infty} p(x) (x-\mu)^{2} dx \\ &= \ln \sqrt{2\pi\sigma^{2}} + \dfrac{1}{2\sigma^{2}} E[(X-\mu)^{2}] \\ &= \ln \sqrt{2\pi\sigma^{2}} + \dfrac{1}{2\sigma^{2}}\sigma^{2} \\ &= \ln \sqrt{2\pi\sigma^{2}} + \dfrac{1}{2} \\ &= \ln \sqrt{2\pi\sigma^{2}} + \ln \sqrt{e} \\ &= \ln \sqrt{2\pi e \sigma^{2}} \end{align*} $$
■
다변량 정규분포
다변량 정규분포의 확률밀도함수는 $p(\mathbf{x}) = \dfrac{1}{\sqrt{(2\pi)^{p} \left| \Sigma \right|}} \exp \left( -\dfrac{1}{2}(\mathbf{x} - \boldsymbol{\mu})^{T} \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)$이므로,
$$ \begin{align*} H(p) &= -\int p(\mathbf{x}) \ln(p(\mathbf{x}))d \mathbf{x} \\ &= -\int p(\mathbf{x}) \ln \left[ \dfrac{1}{\sqrt{(2\pi)^{p} \left| \Sigma \right|}} \exp \left( -\dfrac{1}{2}(\mathbf{x} - \boldsymbol{\mu})^{T} \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right) \right] \\ &= -\int p(\mathbf{x}) \ln\left( \dfrac{1}{\sqrt{(2\pi)^{p} \left| \Sigma \right|}} \right)d \mathbf{x} + \dfrac{1}{2}\int p(\mathbf{x}) (\mathbf{x} - \boldsymbol{\mu})^{T} \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu})d \mathbf{x} \\ &= -\ln\left( \dfrac{1}{\sqrt{(2\pi)^{p} \left| \Sigma \right|}} \right)\int p(\mathbf{x}) d \mathbf{x} + \dfrac{1}{2} E \left[ (\mathbf{x} - \boldsymbol{\mu})^{T} \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right] \\ &= -\ln\left( \dfrac{1}{\sqrt{(2\pi)^{p} \left| \Sigma \right|}} \right) + \dfrac{1}{2} E \left[ (\mathbf{x} - \boldsymbol{\mu})^{T} \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right] \end{align*} $$
두번째 항은 다음과 같이 계산된다.
$$ \begin{align*} E \left[ (\mathbf{x} - \boldsymbol{\mu})^{T} \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right] &= E \left[ \tr \left( (\mathbf{x} - \boldsymbol{\mu})^{T} \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right) \right] \\ &= E \left[ \tr \left( \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) (\mathbf{x} - \boldsymbol{\mu})^{T} \right) \right] \\ &= \tr \left[ E \left( \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) (\mathbf{x} - \boldsymbol{\mu})^{T} \right) \right] \\ &= \tr \left[ \Sigma^{-1} E \left( (\mathbf{x} - \boldsymbol{\mu}) (\mathbf{x} - \boldsymbol{\mu})^{T} \right) \right] \\ &= \tr \left[ \Sigma^{-1} \Sigma \right] \\ &= \tr \left[ I_{p\times p} \right] \\ &= p \end{align*} $$
- 첫번째 등호는 $1 \times 1$행렬 $A$에 대해서 $A = \tr(A)$이므로,
- 두번째 등호는 트레이스의 순환성질에 의해,
- 세번째 등호는 기댓값과 트레이스는 교환가능하므로,
- 네번째 등호는 행렬의 기댓값의 성질에 의해,
- 다섯번째 등호는 공분산행렬의 정의에 의해 성립한다.
따라서 엔트로피는 다음과 같다.
$$ \begin{align*} H(p) &= -\ln\left( \dfrac{1}{\sqrt{(2\pi)^{p} \left| \Sigma \right|}} \right) + \dfrac{1}{2} E \left[ (\mathbf{x} - \boldsymbol{\mu})^{T} \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right] \\ &= \dfrac{1}{2} \ln \left[ (2\pi)^{p} \left| \Sigma \right| \right] + \dfrac{1}{2}p \\ &= \dfrac{1}{2} \ln \left[ (2\pi)^{p} \left| \Sigma \right| \right] + \dfrac{1}{2}\ln e^{p} \\ &= \dfrac{1}{2} \ln \left[ (2\pi e)^{p} \left| \Sigma \right| \right] \end{align*} $$
■