logo

경험적 배리오그램 📂통계적분석

경험적 배리오그램

빌드업

배리오그램의 정의: 유클리드 공간의 픽스된 부분집합 DRrD \subset \mathbb{R}^{r} 에서 확률변수 Y(s):ΩR1Y(s) : \Omega \to \mathbb{R}^{1}집합공간과정 {Y(s)}sD\left\{ Y(s) \right\}_{s \in D} 와 방향벡터 hRr\mathbf{h} \in \mathbb{R}^{r} 를 생각해보자. 구체적으로 nNn \in \mathbb{N} 개의 사이트를 {s1,,sn}D\left\{ s_{1} , \cdots , s_{n} \right\} \subset D 과 같이 나타내고, Y(s)Y(s) 는 모든 sDs \in D 에 대해 분산이 존재하는 것으로 가정한다. 다음과 같이 정의되는 2γ(h)2 \gamma ( \mathbf{h} )배리오그램variogram이라 한다. 2γ(h):=E[Y(s+h)Y(s)]2 2 \gamma ( \mathbf{h} ) := E \left[ Y \left( s + \mathbf{h} \right) - Y(s) \right]^{2} 특히 배리오그램의 절반 γ(h)\gamma ( \mathbf{h} )세미배리오그램semivariogram이라 한다.

공간데이터분석에서 배리오그램이란 대단이 중요하나, 이론이 아닌 실제 세상에서 모든 h\mathbf{h} 에서 계산을 수행한다는 것은 불가능하므로 데이터를 적절한 간격으로 잘라 수치라도 얻어내는 수밖에 없다.

정의

BijB_{ij} 1

DR2D \subset \mathbb{R}^{2} 에서 NN개의 데이터를 가지고 있을 때, 총 NC2=N(N1)/2_{N} C_{2} = N(N-1)/2 쌍의 거리를 얻으며 가로 한 단위의 길이 hxh_{x} 와 세로 한 단위의 길이 hyh_{y} 를 계산하고 가로축과 세로축별로 bin을 나누어 집합 BijB_{ij} 들을 얻는다. 이 때 다음을 경험적 세미배리오그램이라 한다. γij=12Bij{(k,l):(sksl)Bij}[Y(sk)Y(sl)]2 \gamma_{ij}^{\ast} = {{ 1 } \over { 2 \left| B_{ij} \right| }} \sum_{ \left\{ (k,l) : \left( s_{k} - s_{l} \right) \in B_{ij} \right\} } \left[ Y \left( s_{k} \right) - Y \left( s_{l} \right) \right]^{2} DD 에서 (i,j)(i,j)번째 위치 (xi,yj)\left( x_{i}, y_{j} \right) 마다 γij\gamma_{ij}^{\ast} 를 대응시킨 히트맵heatmap 혹은 서피스surface경험적 세미 배리오그램 등고선eSC(Empirical Semivariogram Contour)이라 한다.

거리 N(h)N(h) 2

거리 hh 에 종속된 집합 N(h):={(sk,sl):skslh}N \left( h \right) := \left\{ \left( s_{k} , s_{l} \right) : \left\| s_{k} - s_{l} \right\| \approx h \right\} 에 대해 다음을 경험적 세미배리오그램empirical Semivariogram이라 한다. γ^(h)=12N(h)(sk,sl)N(h)[Y(sk)Y(sl)]2 \hat{\gamma} \left( h \right) = {{ 1 } \over { 2 \left| N \left( h \right) \right| }} \sum_{ \left( s_{k} , s_{l} \right) \in N \left( h \right) } \left[ Y \left( s_{k} \right) - Y \left( s_{l} \right) \right]^{2} 가로축을 hh 로 두고 세로축을 γ^(h)\hat{\gamma} \left( h \right) 로 두고 그린 그림 자체를 세미배리오그램semivariogram이라 부르기도 한다.


  • 집합 XX 에 쓰인 절대값 기호 X\left| X \right| 는 집합의 기수cardinality를 의미한다.

설명

본질적으로 두 정의는 같은 말인데 그냥 위쪽이 좀 더 정확하게 적혀있고 아래쪽이 좀 더 일반적으로 적혔다고 보면 된다. 직접 코드를 짜고 싶은 게 아닌 이상 어떤 정의를 보든 아무 상관 없으며, 시각화에 있어서 그 용도가 다르다고 해도 결국 서로 다른 것이 될 수는 없다.

γij\gamma_{ij}^{\ast} \to ESC

ESC 그림은 위와 같이 경험적 배리오그램을 지도에 맞춰 시각화한 것으로, 아나이소트로피를 탐지하는 등의 탐색적 데이터분석에 요긴하게 쓰일 수 있다. 등고선이 둥글게 나타나면 아이소프로픽한 것이고 타원형으로 나타나면 아나이소트로피를 예상할 수 있는 식이다.

γ^(h)\hat{\gamma} (h) \to 세미배리오그램

애초에 세미배리오그램이라는 말의 -그램-gram 자체가 도해圖解라는 의미가 있는데, 이는 위의 그림에서 유래한다. 조금 더 자세한 내용은 세미배리오그램의 모형들에 대해 다룬 포스트에서 다루도록 하겠다.


  1. Banerjee. (2015). Hierarchical Modeling and Analysis for Spatial Data(2nd Edition): p39. ↩︎

  2. https://juliaearth.github.io/GeoStats.jl/stable/variography/empirical.html ↩︎