logo

類似距離の定義 📂距離空間

類似距離の定義

定義

距離関数のその他の条件は満たすが、$d(x,y)= \implies x=y$ を満たさない 関数 $d: X \times X \to [0, \infty)$ を 擬距離pseudo metricという。

説明 1

距離空間 $\left( X , d \right)$ において便宜上次のような表現を使うことがある:

  1. 点 $x \in X$ と集合 $A \subset X$ の間の距離 $d_{1}$ を次のように表すことがある。 $$ d_{1} \left( x , A \right) = \inf_{a \in A} d \left( x , a \right) $$
  2. 集合 $A, B \subset X$ 同士の距離 $d_{2}$ を次のように表すことがある。 $$ d_{2} \left( A , B \right) = \inf_{a \in A, b \in B} d \left( a , b \right) $$

実際、概念的に言えば定義を見た瞬間に直感的に受け入れられるほど簡単で、場合によっては実用的でもある。しかし厳密に言えばこれらは真の意味での距離関数metricにはならない。$d_{1}$ の定義域が曖昧なことはさておき、たとえ $d_{2}$ の定義域を $2^{X} \times 2^{X}$ にしたとしても、互いに素でない $A, B$ に対して $d_{2} \left( A , B \right) = 0$ は $A = B$ を保証できないためである。

フレシェ=ニコディム=アロンザーン距離

$$ A \nabla B := \left( A \cup B \right) \setminus \left( A \cap B \right) = \left( A \setminus B \right) \cup \left( B \setminus A \right) $$

互いに素であることを排除しようという試みがなかったわけではない。例えば上のように定義された作用素 $\nabla$ に対して測度空間 $\left( X , \mathcal{E}, \mu \right)$ のシグマ代数上で $\delta : \mathcal{E} \times \mathcal{E} \to [0, \infty)$ を次のように定義できる。 $$ \delta \left( A , B \right) := \mu \left( A \nabla B \right) $$ 平たく言えば位置だけでなく集合の形状も含めて距離概念を論じようということだが、$delta$ が フレシェ=ニコディム=アロンザーン距離Fréchet–Nikodym–Aronszajn distanceと呼ばれるにもかかわらず、依然として擬距離の域を出ない。

マルクジェヴィスキ=シュタイナウス距離

$\delta$ を正規化する方法としては $\mu (X)$ で割る方法もあるが、これは $\mu$ が有限測度であるという制約を持つ。したがって次のように $\mu \left( A \cup B \right)$ で割る方法を考えられる。 $$ \delta ' \left( A , B \right) = {\frac{ \delta \left( A , B \right) }{ \mu \left( A \cup B \right) }} = 1 - {\frac{ \mu \left( A \cap B \right) }{ \mu \left( A \cup B \right) }} \qquad , \mu \left( A \cup B \right) \ne 0 $$ $\delta ' : \mathcal{E} \times \mathcal{E} \to [0, \infty)$ は マルクジェヴィスキ=シュタイナウス距離Markzewski–Steinhaus distanceと呼ばれるが、定義から分かるように擬距離の泥沼から抜け出すには不十分である。

ジャカード距離

前述の通り、集合の距離を定義することは思ったより難しい。これは直感と異なり集合という概念があまりにも自由度が高いからで、同じ形をしていても条件を妥協して距離になる場合を見てみる。もし $X$ が有限集合であれば、集合の濃度(基数) $\left| \cdot \right|$ に対して次のように $\delta '' : 2^{X} \times 2^{X} \to [0, \infty)$ を定義できる。 $$ \delta '' \left( A , B \right) = 1 - {\frac{ \left| A \cap B \right| }{ \left| A \cup B \right| }} \qquad , \left| A \cup B \right| \ne 0 $$ 形式的に見ればこれは有限版のマルクジェヴィスキ=シュタイナウス距離といえるが、この $\delta ''$ を ジャカード距離Jaccard distanceと呼ぶ。実際、データサイエンスに慣れていれば、1から引かれている項がジャカード係数と呼ばれてきたことはすぐに分かるだろう。

言い換えれば、集合間の距離というものはこれほどまで条件を後退させないと明瞭にならないということだ。実用性の観点では $d_{1}$ や $d_{2}$ のようなものを使うのは構わないが、それらを深く掘り下げることはあまり生産的でないと言える。