logo

유사 거리의 정의 📂거리공간

유사 거리의 정의

정의

거리 함수의 다른 조건은 만족하지만, $d(x,y)= \implies x=y$ 를 만족하지 않는 함수 $d: X \times X \to [0, \infty)$ 를 유사 거리pseudo metric라 한다.

설명 1

거리 공간 $\left( X , d \right)$ 에서 편의상 다음과 같은 표현을 사용할 때가 있다:

  1. 점 $x \in X$ 와 집합 $A \subset X$ 사이의 거리 $d_{1}$ 를 다음과 같이 나타내기도 한다. $$ d_{1} \left( x , A \right) = \inf_{a \in A} d \left( x , a \right) $$
  2. 집합 $A, B \subset X$ 사이의 거리 $d_{2}$ 를 다음과 같이 나타내기도 한다. $$ d_{2} \left( A , B \right) = \inf_{a \in A, b \in B} d \left( a , b \right) $$

사실 개념적으로 따졌을 땐 정의를 보자마자 직관적으로 받아들일 수 있을 정도로 간단하고, 때로는 실용적일 수도 있다. 그러나 엄밀히 말해 이들은 진정한 의미의 거리 함수metric가 되지 못한다. $d_{1}$ 의 정의역이 모호한 것은 둘째 치더라도, $d_{2}$ 의 정의역을 $2^{X} \times 2^{X}$ 로 한다고 치더라도, 서로소가 아닌 $A, B$ 에 대해서 $d_{2} \left( A , B \right) = 0$ 는 $A = B$ 를 보장하지 못하기 때문이다.

프레셰-니코딤-아론샤인 거리

$$ A \nabla B := \left( A \cup B \right) \setminus \left( A \cap B \right) = \left( A \setminus B \right) \cup \left( B \setminus A \right) $$

서로소라는 걸 어떻게 배재하기 위한 노력이 없었던 것은 아니다. 가령 위와 같이 정의된 오퍼레이터 $\nabla$ 에 대해서 측도공간 $\left( X , \mathcal{E}, \mu \right)$ 의 시그마 알지브라 상에서 $\delta : \mathcal{E} \times \mathcal{E} \to [0, \infty)$ 를 다음과 같이 정의할 수 있다. $$ \delta \left( A , B \right) := \mu \left( A \nabla B \right) $$ 쉽게 말해서 위치만이 아니라 집합의 형태도 포함해서 거리개념을 논하겠다는건데, $delta$ 가 프레셰-니코딤-아론샤인 거리Fréchet–Nikodym–Aronszajn distance이라 불리는 것이 무색하게도 여전히 유사 거리에 머물러 있다.

마크제비스키-슈타인하우스 거리

$\delta$ 를 정규화하는 방법으로는 $\mu (X)$ 로 나눠주는 방법도 있지만, 이는 $\mu$ 가 유한측도여야 한다는 제약이 있다. 따라서 다음과 같이 $\mu \left( A \cup B \right)$ 로 나눠주는 방법을 생각해볼 수 있다. $$ \delta ' \left( A , B \right) = {\frac{ \delta \left( A , B \right) }{ \mu \left( A \cup B \right) }} = 1 - {\frac{ \mu \left( A \cap B \right) }{ \mu \left( A \cup B \right) }} \qquad , \mu \left( A \cup B \right) \ne 0 $$ $\delta ' : \mathcal{E} \times \mathcal{E} \to [0, \infty)$ 는 마크제비스키-슈타인하우스 거리Markzewski–Steinhaus distance라 불리지만, 정의에서 알 수 있듯 유사 거리의 수렁에서 벗어나기엔 역부족이다.

자카드 거리

앞서 살펴보았듯, 집합의 거리라고 하는 걸 정의하는 건 생각보다 어려운 일이다. 이는 직관과 달리 집합이라는 것이 너무 자유분방한 개념이기 때문인데, 같은 형태를 갖추었음에도 조건을 타협하며 거리가 되는 경우를 알아보자. 만약 $X$ 가 유한집합이라면, 집합의 기수 $\left| \cdot \right|$ 에 대해 다음과 같이 $\delta '' : 2^{X} \times 2^{X} \to [0, \infty)$ 를 정의할 수 있다. $$ \delta '' \left( A , B \right) = 1 - {\frac{ \left| A \cap B \right| }{ \left| A \cup B \right| }} \qquad , \left| A \cup B \right| \ne 0 $$ 형식적으로 보았을 때 이는 유한한 버전의 마크제비스키-슈타인하우스 거리라고 할 수 있는데, 이 $\delta ''$ 를 자카드 거리Jaccard distance라 부른다. 실제로 데이터과학에 익숙하다면 1에서 빠지는 항을 자카드 계수라 불러왔음이 눈에 보일 것이다.

달리 말하자면, 집합 간의 거리라는 건 이토록 좋은 조건까지 물러서야 명료해진다는 것이다. 실용성의 측면에서 $d_{1}$ 이나 $d_{2}$ 같은 걸 쓰는 거야 좋지만, 이에 대해 깊게 파고드는 것은 그다지 생산적이지 못하다고 말할 수 있겠다.