logo

確率分布のヘリンガー距離 📂確率論

確率分布のヘリンガー距離

定義

次のように定義される確率分布自体の距離関数ヘリンガー距離Hellinger distanceと呼ぶ。

離散型1

$p, q$を確率質量関数とする。$p, q$のヘリンガー距離を次のように定義する。 $$ H \left( p , q \right) := \sqrt{ \frac{1}{2} \sum_{k} \left( \sqrt{p_{k}} - \sqrt{q_{k}} \right)^{2} } $$

連続型2

$f, g$を確率密度関数とする。$f, g$のヘリンガー距離を次のように定義する。 $$ \begin{align*} & H^{2} \left( f , g \right) \\ :=& {\frac{ 1 }{ 2 }} \int_{\mathbb{R}} \left( \sqrt{f(x)} - \sqrt{g(x)} \right)^{2} dx \\ =& 1 - \int_{\mathbb{R}} \sqrt{f(x)g(x)} dx \end{align*} $$

説明

ヘリンガー距離は定義通り、確率質量関数または確率密度関数自体を比較する距離関数であり、$[0,1]$に境界付けられ、完全に同じ時は$0$、完全に一致しない時は$1$となる。もちろん確率分布を比較するためには主にクルバック・ライブラー発散が広く使われているが、ヘリンガー距離は厳密な意味でも距離関数なので、距離空間を論じることができるという違いがある。

関連項目


  1. Gingold, J.A., Coakley, E.S., Su, J. et al. Distribution Analyzer, a methodology for identifying and clustering outlier conditions from single-cell distributions, and its application to a Nanog reporter RNAi screen. BMC Bioinformatics 16, 225 (2015). https://doi.org/10.1186/s12859-015-0636-7 ↩︎

  2. Wibisono. (2024). Optimal score estimation via empirical Bayes smoothing. https://doi.org/10.48550/arXiv.2402.07747 ↩︎