logo

チェック複体の定義 📂位相データ分析

チェック複体の定義

定義 1 2

距離空間 (X,d)\left( X, d \right) と正の数 ε>0\varepsilon > 0 が与えられたとする。有限集合 SXS \subset X に対して以下のように定義された抽象単体複体 Cˇε(S)\check{C}_{\varepsilon} (S)チェック複体Čech Complexという。 Cˇε(S):={σS:xσBd(x;ε)} \check{C}_{\varepsilon} (S) := \left\{ \sigma \subset S : \bigcap_{x \in \sigma} B_{d} \left( x ; \varepsilon \right) \ne \emptyset \right\}

ここでは、Bd(c;r)B_{d} (c; r) は与えられた距離空間で中心が cXc \in X、半径が rRr \in \mathbb{R}開球である。 Bd(c;r):={xX:d(c,x)<r} B_{d} \left( c ; r \right) := \left\{ x \in X : d (c,x) < r \right\}

説明

定義が少し難しく書かれているが、実際にはユークリッド空間 (Rd,2)\left( \mathbb{R}^{d} , \left\| \cdot \right\|_{2} \right)で考えると、単に球が重なっているときだけ単体と認める単体複体と考えると簡単だ。式に囚われずに、Vietoris-Rips複体と何が違うかを見ればすぐに理解できる。

Vietoris-Rips複体とチェック複体の違い

Vietoris-Rips複体: VRε(S):={σS:diamσ2ε}\text{VR}_{\varepsilon} (S) := \left\{ \sigma \subset S : \diam \sigma \le 2 \varepsilon \right\}

チェック複体: Cˇε(S):={σS:xσBd(x;ε)}\check{C}_{\varepsilon} (S) := \left\{ \sigma \subset S : \bigcap_{x \in \sigma} B_{d} \left( x ; \varepsilon \right) \ne \emptyset \right\}

次の図は、同じデータに対してVietoris-Rips複体とチェック複体を比較したものだ。上が VRε\text{VR}_{\varepsilon}、下が Cˇε\check{C}_{\varepsilon} だ。

20220314_124807.png

  • Vietoris-Ripsは、kk-単体を含む条件としてその面であるk1k-1-単体が存在することのみを要求する。例では、11-単体であるABABBCBCCACAが存在するので、22-単体であるABCABCが含まれる。
  • それに対してチェック複体は、その面を含むことに加え、ABCABC自体もその球たちが一点で結ばれていなければならない。これはチェック複体を構築する条件がVietoris-Rips複体を構築するよりも厳しいことを意味し、以下が分かる。 CˇεVRε \check{C}_{\varepsilon} \subset \text{VR}_{\varepsilon} さらに、次の事実が知られている。 CˇεVRεCˇ2ε \check{C}_{\varepsilon} \subset \text{VR}_{\varepsilon} \subset \check{C}_{2 \varepsilon}

定義から推測できるのは、おそらくチェック複体がVietoris-Rips複体に比べて少し多くの情報を持てるかもしれないということだ。VRε\text{VR}_{\varepsilon}は、与えられたknk \le n個の点が接続されているだけで、そのk1k-1-単体が存在すると断言する。つまり、単体の存在性とその全ての面の存在性の間に差がないと言える。例えば、22-単体であるABCABCが存在するとか、11-単体であるABABBCBCCACAが存在すると言うのは、正確に同等で、正直なところ、一つを知っていれば、残りの情報は無意味だ。一方で、Cˇε\check{C}_{\varepsilon}は、ABABBCBCCACAが存在すると言ってもABCABCの存在を断言できず、別途確認が必要だ。この点から、チェック複体はデータをVietoris-Rips複体よりも少し詳細に見ていると期待できる。

一方で、実際の計算の面では、Vietoris-Rips複体を構築する計算コストが圧倒的に安い。というのも、VRε\text{VR}_{\varepsilon}のように単純に固定された点と点の距離を計算するのは簡単だが、Cˇε\check{C}_{\varepsilon}では点の球たちがどこで会うかも分からず、会ったとしてもそれがε\varepsilonより長いか短いか分からないからだ。これを克服し、チェック複体を構築するためには、Welzlのアルゴリズムなどで最小包含円を見つける方法などが考えられるが、その一回一回の計算がかなり高価で、その高価な計算を可能な全ての点の組み合わせに対して繰り返さなければならない。


  1. Raul Rabadan. (2020). Topological Data Analysis for Genomics and Evolution: p124. ↩︎

  2. Edelsbrunner, Harer. (2010). Computational Topology An Introduction: p72. ↩︎