DBSCAN: 밀도 기반 군집화 📂머신러닝

DBSCAN: 밀도 기반 군집화

알고리즘 ¹

DBSCAN^{Density-Based Spatial Clustering of Applications with Noise}은 거리공간 $\left( X , d \right)$ 에서 점의 밀도에 기반하여 클러스터링을 수행하는 알고리즘이다. 두 개의 하이퍼파라미터인 반경^radius $\varepsilon > 0$ 와 밀도의 기준이 될 최소점수^{minimal number of points} $m$ 이 주어진다.

유한집합 $D \subset X$ 를 데이터베이스^database라 한다.
$p \in D$ 에 대해 $N_{\varepsilon} \left( p \right) = \left\{ q \in X \mid d \left( p , q \right) \le \varepsilon \right\}$ 를 $p$ 의 이웃^neighborhood이라 한다.
$p \in D$ 가 $| N_{\varepsilon} \left( p \right) | \ge m$ 을 만족하면 $p$ 를 핵심점^{core point}이라 한다.
$p \in D$ 가 핵심점은 아니지만, $N_{\varepsilon} \left( p \right)$ 이 다른 핵심점을 포함하면 $p$ 를 경계점^{border point}이라 한다.
핵심점 $q$ 에 대해 $p \in N_{\varepsilon} \left( q \right)$ 이면 $q$ 는 $p$ 에 직접 도달가능^{directly reachable}하다고 한다. $$ p = p_{1} , \cdots , p_{n} = q $$ 위와 같이 $p_{k}$ 가 $p_{k+1}$ 에 직접 도달가능하면서 $p = p_{1}$ 이고 $q = p_{n}$ 인 시퀀스가 존재하면 $p$ 는 $q$ 에 도달가능^reachable하다고 한다.
두 $p , q \in D$ 에 도달가능한 핵심점 $o \in D$ 가 존재하면 $p$ 와 $q$ 는 연결^connected되었다고 한다.
공집합이 아닌 $C \subseteq D$ 의 모든 $\forall p, q \in C$ 들이 다음 두 조건을 만족하면 클러스터^cluster라 한다.
- (i) 최대성: 만약 $p$ 에서 $q$ 로 도달가능하면, $q \in C$ 이다.
- (ii) 연결성: $p$ 와 $q$ 는 연결되었다.
그 어떤 클러스터에도 속하지 못하는 점을 노이즈^noise라 한다.

알고리즘: 밀도기반 군집화
In	$\varepsilon > 0$, $m \in \mathbb{N}$ 데이터베이스 $D$
1.	지금까지 확인되지 않은 아무 점 $p \in D$ 을 선택한다.
2.	$N_{\varepsilon}(p) \ge m$ 이면 핵심점으로 둔다.
3.	핵심점 $p$ 의 이웃에 또다른 핵심점 $q$ 가 포함되면 두 핵심점을 포함하는 클러스터를 하나로 병합한다.
4.	$p$ 의 이웃 중 확인되지 않은 점이 있으면 그 점을 선택한 후 2로 돌아가고, 확인된 점이 없으면 1로 돌아간다.
5.	모든 점을 확인하면 알고리즘을 끝낸다. 핵심점이 아닌 각각의 점에 핵심점이 포함되는지를 확인해 경계점과 노이즈를 구분한다.
Out	클러스터의 집합 $\left\{ C_{k} \right\}$

설명 ²

도달가능성과 연결성의 차이는 핵심점에 한정되는지 아닌지가 다르다. 연결성은 대칭적인 관계인 것과 달리, 도달가능한 주체가 되려면 핵심점이라는 조건이 필요하기 때문에 $p$ 가 $q$ 에 도달가능할지라도 그 반대는 불가능할 수 있다.

alt text

DBSCAN: 밀도 기반 군집화

알고리즘 1

설명 2

인기

알고리즘 ¹

설명 ²