logo

확률분포의 헬링거 거리 📂확률론

확률분포의 헬링거 거리

정의

다음과 같이 정의되는 확률분포 그 자체의 거리 함수헬링거 거리Hellinger distance라 한다.

이산 1

p,qp, q 를 확률질량함수라 하자. p,qp, q 의 헬링거 거리를 다음과 같이 정의한다. H(p,q):=12k(pkqk)2 H \left( p , q \right) := \sqrt{ \frac{1}{2} \sum_{k} \left( \sqrt{p_{k}} - \sqrt{q_{k}} \right)^{2} }

연속 2

f,gf, g 를 확률밀도함수라 하자. f,gf, g 의 헬링거 거리를 다음과 같이 정의한다. H2(f,g):=12R(f(x)g(x))2dx=1Rf(x)g(x)dx \begin{align*} & H^{2} \left( f , g \right) \\ :=& {\frac{ 1 }{ 2 }} \int_{\mathbb{R}} \left( \sqrt{f(x)} - \sqrt{g(x)} \right)^{2} dx \\ =& 1 - \int_{\mathbb{R}} \sqrt{f(x)g(x)} dx \end{align*}

설명

헬링거 거리는 정의 그대로 확률질량함수 혹은 확률밀도함수 자체를 비교하는 거리 함수로써 [0,1][0,1]바운드 되어있고 완전히 같을 때 00, 완전히 일치하지 않을 때 11 이 된다. 물론 확률분포를 비교하기 위해서는 주로 쿨백-라이블러 발산가 널리 쓰이고 있지만, 헬링거 거리는 엄밀한 의미에서도 거리 함수기 때문에 거리공간을 논할 수 있다는 차별점이 있다.

같이보기


  1. Gingold, J.A., Coakley, E.S., Su, J. et al. Distribution Analyzer, a methodology for identifying and clustering outlier conditions from single-cell distributions, and its application to a Nanog reporter RNAi screen. BMC Bioinformatics 16, 225 (2015). https://doi.org/10.1186/s12859-015-0636-7 ↩︎

  2. Wibisono. (2024). Optimal score estimation via empirical Bayes smoothing. https://doi.org/10.48550/arXiv.2402.07747 ↩︎