경험적 배리오그램
빌드업
배리오그램의 정의: 유클리드 공간의 픽스된 부분집합 $D \subset \mathbb{R}^{r}$ 에서 확률변수 $Y(s) : \Omega \to \mathbb{R}^{1}$ 의 집합인 공간과정 $\left\{ Y(s) \right\}_{s \in D}$ 와 방향벡터 $\mathbf{h} \in \mathbb{R}^{r}$ 를 생각해보자. 구체적으로 $n \in \mathbb{N}$ 개의 사이트를 $\left\{ s_{1} , \cdots , s_{n} \right\} \subset D$ 과 같이 나타내고, $Y(s)$ 는 모든 $s \in D$ 에 대해 분산이 존재하는 것으로 가정한다. 다음과 같이 정의되는 $2 \gamma ( \mathbf{h} )$ 를 배리오그램variogram이라 한다. $$ 2 \gamma ( \mathbf{h} ) := E \left[ Y \left( s + \mathbf{h} \right) - Y(s) \right]^{2} $$ 특히 배리오그램의 절반 $\gamma ( \mathbf{h} )$ 를 세미배리오그램semivariogram이라 한다.
공간데이터분석에서 배리오그램이란 대단이 중요하나, 이론이 아닌 실제 세상에서 모든 $\mathbf{h}$ 에서 계산을 수행한다는 것은 불가능하므로 데이터를 적절한 간격으로 잘라 수치라도 얻어내는 수밖에 없다.
정의
빈 $B_{ij}$ 1
$D \subset \mathbb{R}^{2}$ 에서 $N$개의 데이터를 가지고 있을 때, 총 $_{N} C_{2} = N(N-1)/2$ 쌍의 거리를 얻으며 가로 한 단위의 길이 $h_{x}$ 와 세로 한 단위의 길이 $h_{y}$ 를 계산하고 가로축과 세로축별로 빈bin을 나누어 집합 $B_{ij}$ 들을 얻는다. 이 때 다음을 경험적 세미배리오그램이라 한다. $$ \gamma_{ij}^{\ast} = {{ 1 } \over { 2 \left| B_{ij} \right| }} \sum_{ \left\{ (k,l) : \left( s_{k} - s_{l} \right) \in B_{ij} \right\} } \left[ Y \left( s_{k} \right) - Y \left( s_{l} \right) \right]^{2} $$ $D$ 에서 $(i,j)$번째 위치 $\left( x_{i}, y_{j} \right)$ 마다 $\gamma_{ij}^{\ast}$ 를 대응시킨 히트맵heatmap 혹은 서피스surface를 경험적 세미 배리오그램 등고선eSC(Empirical Semivariogram Contour)이라 한다.
거리 $N(h)$ 2
거리 $h$ 에 종속된 집합 $N \left( h \right) := \left\{ \left( s_{k} , s_{l} \right) : \left\| s_{k} - s_{l} \right\| \approx h \right\}$ 에 대해 다음을 경험적 세미배리오그램empirical Semivariogram이라 한다. $$ \hat{\gamma} \left( h \right) = {{ 1 } \over { 2 \left| N \left( h \right) \right| }} \sum_{ \left( s_{k} , s_{l} \right) \in N \left( h \right) } \left[ Y \left( s_{k} \right) - Y \left( s_{l} \right) \right]^{2} $$ 가로축을 $h$ 로 두고 세로축을 $\hat{\gamma} \left( h \right)$ 로 두고 그린 그림 자체를 세미배리오그램semivariogram이라 부르기도 한다.
설명
본질적으로 두 정의는 같은 말인데 그냥 위쪽이 좀 더 정확하게 적혀있고 아래쪽이 좀 더 일반적으로 적혔다고 보면 된다. 직접 코드를 짜고 싶은 게 아닌 이상 어떤 정의를 보든 아무 상관 없으며, 시각화에 있어서 그 용도가 다르다고 해도 결국 서로 다른 것이 될 수는 없다.
$\gamma_{ij}^{\ast} \to$ ESC
ESC 그림은 위와 같이 경험적 배리오그램을 지도에 맞춰 시각화한 것으로, 아나이소트로피를 탐지하는 등의 탐색적 데이터분석에 요긴하게 쓰일 수 있다. 등고선이 둥글게 나타나면 아이소프로픽한 것이고 타원형으로 나타나면 아나이소트로피를 예상할 수 있는 식이다.
$\hat{\gamma} (h) \to$ 세미배리오그램
애초에 세미배리오그램이라는 말의 -그램-gram 자체가 도해圖解라는 의미가 있는데, 이는 위의 그림에서 유래한다. 조금 더 자세한 내용은 세미배리오그램의 모형들에 대해 다룬 포스트에서 다루도록 하겠다.
Banerjee. (2015). Hierarchical Modeling and Analysis for Spatial Data(2nd Edition): p39. ↩︎
https://juliaearth.github.io/GeoStats.jl/stable/variography/empirical.html ↩︎