logo

공간 데이터 분석이란? 📂통계적분석

공간 데이터 분석이란?

설명 1

공간 데이터spatial Data란 말 그대로 공간에 대한 정보를 포함하는 데이터로써, 공간 통계학spatial Statistics는 주로 유클리드 공간 $\mathbb{R}^{r}$ 을 진짜 사전적인 의미에서의 ‘공간’으로 보고 분석하는 통계학의 한 분과다. 시계열 분석이 시간축 $t$ 을 타고 변하는 데이터를 분석한다면, 공간데이터 분석은 주어진 $D \subset \mathbb{R}^{r}$, (주로 $r = 2$ 일 때) 위치에 따라 변하는 데이터를 분석한다.

막연히 생각해봐도 데이터를 설명하는 축이 $r > 1$ 개로 늘어난 만큼 시계열 데이터와 비교하면 그 종류부터 다양하다. 공간 데이터는 기본적으로 다음과 같은 세가지 대표적인 타입으로 분류할 수 있다.

포인트 참조 데이터

포인트-레퍼런스드 데이터point-referenced Data란 픽스된 $D \subset \mathbb{R}^{r}$ 에서 연속적으로 위치가 변한다고 가정되는 점 $s \in Y$ 에 대한 랜덤벡터 $Y(s)$ 로써, 좌표가 주어진 데이터 대부분이 이러한 방식으로 표현될 수 있다. 위 예시에서는 미세먼지(PM2.5) 관측소에서 측정된 농도를 좌표에 따라 지도에 나타내고 있다.

포인트 참조 데이터는 지구통계 데이터geostatistical Data라 불리기도 한다.

구역 데이터

에어리얼 데이터areal Data는 마찬가지로 $D \subset \mathbb{R}^{r}$ 은 픽스되어 있지만 그 안에서의 유한한 파티션으로 구분되는 데이터다. 포인트 참조 데이터는 언뜻 만능처럼 보이지만 시,군,구,읍,면,동과 같이 좌표가 아니라 인간사회에 의해 나뉘어진 행정구역 등을 표현한다. 위 예시에서는 좌표가 아닌 이레귤러한 형태irregualr shape로 쪼개진 구획별로 빈곤도를 나타내고 있다.

구역 데이터는 $D$ 의 파티션이 레귤러한 형태, 그러니까 예시와 달리 네모 반듯하고 일정하게 잘린 경우 격자lattice 데이터라 불리기도 한다.

포인트 패턴 데이터

포인트 패턴 데이터point Pattern Data는 위 두가지와 달리 $D \subset \mathbb{R}^{r}$ 그 자체가 랜덤인 데이터를 말한다. 특히 모든 $s \in D$ 에 대해 $Y(s) = 1$ 일 때 포인트 패턴 데이터는 각 위치별로 사건이 일어났다는 사실만을 전할 것이다. 위 예시는 생존자 편향의 오류survivorship Bias를 설명할 때 자주 등장하는 그림으로써, 제2차 세계대전 당시 생환한 미국 전투기의 어느 부분이 파손 되었는지를 나타낸다.2 이 때 피탄 부위는 미세먼지 관측소나 행정구역처럼 정해진 게 아니라 그 위치 자체가 변하며, ‘파손’이 사건인 포인트 패턴 데이터다.


  1. Banerjee. (2003). Hierarchical Modeling and Analysis for Spatial Data: p16~18. ↩︎

  2. https://www.andrewahn.co/silicon-valley/survivorship-bias/ ↩︎