확률분포의 헬링거 거리 📂확률론

확률분포의 헬링거 거리

정의

다음과 같이 정의되는 확률분포 그 자체의 거리 함수를 헬링거 거리^{Hellinger distance}라 한다.

이산 ¹

$p, q$ 를 확률질량함수라 하자. $p, q$ 의 헬링거 거리를 다음과 같이 정의한다. $H \left( p , q \right) := \sqrt{ \frac{1}{2} \sum_{k} \left( \sqrt{p_{k}} - \sqrt{q_{k}} \right)^{2} }$

연속 ²

$f, g$ 를 확률밀도함수라 하자. $f, g$ 의 헬링거 거리를 다음과 같이 정의한다. $\begin{align*} & H^{2} \left( f , g \right) \\ :=& {\frac{ 1 }{ 2 }} \int_{\mathbb{R}} \left( \sqrt{f(x)} - \sqrt{g(x)} \right)^{2} dx \\ =& 1 - \int_{\mathbb{R}} \sqrt{f(x)g(x)} dx \end{align*}$

설명

헬링거 거리는 정의 그대로 확률질량함수 혹은 확률밀도함수 자체를 비교하는 거리 함수로써 $[0,1]$ 에 바운드 되어있고 완전히 같을 때 $0$ , 완전히 일치하지 않을 때 $1$ 이 된다. 물론 확률분포를 비교하기 위해서는 주로 쿨백-라이블러 발산가 널리 쓰이고 있지만, 헬링거 거리는 엄밀한 의미에서도 거리 함수기 때문에 거리공간을 논할 수 있다는 차별점이 있다.

같이보기

쿨백-라이블러 발산

Gingold, J.A., Coakley, E.S., Su, J. et al. Distribution Analyzer, a methodology for identifying and clustering outlier conditions from single-cell distributions, and its application to a Nanog reporter RNAi screen. BMC Bioinformatics 16, 225 (2015). https://doi.org/10.1186/s12859-015-0636-7 ↩︎
Wibisono. (2024). Optimal score estimation via empirical Bayes smoothing. https://doi.org/10.48550/arXiv.2402.07747 ↩︎