空間データ分析とは?
説明 1
空間データspatial Dataとは、文字通り空間に関する情報を含むデータであり、空間統計学spatial Statisticsは、実際の辞書の意味での「空間」としてユークリッド空間 $\mathbb{R}^{r}$ を分析する統計学の一分野だ。時系列分析が時間軸 $t$ に沿って変化するデータを分析するのに対し、空間データ分析は与えられた $D \subset \mathbb{R}^{r}$、(通常は $r = 2$ の時) 位置に応じて変化するデータを分析する。
考えてみれば、データを説明する軸が $r > 1$ 個に増えるだけで時系列データと比べてその種類は多様だ。空間データは根本的に次の三つの主要なタイプに分類することができる。
ポイント参照データ
ポイント参照データpoint-referenced Dataは、固定された $D \subset \mathbb{R}^{r}$ の位置で点 $s \in Y$ が連続的に変化すると仮定し、座標が与えられたほとんどのデータをランダムベクトル $Y(s)$ として表現することができる。上の例では、PM2.5監視所で測定された濃度を座標に応じて地図に表示している。
ポイント参照データは 地質統計データgeostatistical Dataとも呼ばれる。
エリアデータ
エリアデータareal Dataはポイント参照データと同様に $D \subset \mathbb{R}^{r}$ は固定されているが、その内部で有限のパーティションに分けられる点が異なる。ポイント参照データは万能のように見えるかもしれないが、市、郡、区、町、地区など、座標ではなく人間社会によって分けられた行政区画を表現する。上の例では、座標ではなく不規則な形irregular shapeで分割されたブロックごとに貧困度を表示している。
エリアデータは、$D$ のパーティションが規則的な形状、つまり例と異なり、きちんと均一に切られている場合、ラティスlatticeデータとも呼ばれる。
ポイントパターンデータ
ポイントパターンデータpoint Pattern Dataは、前の二つとは異なり、$D \subset \mathbb{R}^{r}$ 自体がランダムなデータを指す。特に全ての $s \in D$ において $Y(s) = 1$ の時、ポイントパターンデータは各位置で事故が起こった事実のみを伝えることになる。上の例はサバイバーシップバイアスを説明する際によく引用される図であり、第二次世界大戦時に帰還したアメリカの戦闘機のどの部分が損傷したかを示している。2 この場合、被弾部位はPM2.5監視所や行政区画のように決まっているわけではなく、その位置自体が変わり、損傷がポイントパターンデータのイベントだ。
Banerjee. (2003). Hierarchical Modeling and Analysis for Spatial Data: p16~18. ↩︎
https://www.andrewahn.co/silicon-valley/survivorship-bias/ ↩︎