경험적 배리오그램
📂통계적분석경험적 배리오그램
빌드업
배리오그램의 정의: 유클리드 공간의 픽스된 부분집합 D⊂Rr 에서 확률변수 Y(s):Ω→R1 의 집합인 공간과정 {Y(s)}s∈D 와 방향벡터 h∈Rr 를 생각해보자. 구체적으로 n∈N 개의 사이트를 {s1,⋯,sn}⊂D 과 같이 나타내고, Y(s) 는 모든 s∈D 에 대해 분산이 존재하는 것으로 가정한다. 다음과 같이 정의되는 2γ(h) 를 배리오그램variogram이라 한다.
2γ(h):=E[Y(s+h)−Y(s)]2
특히 배리오그램의 절반 γ(h) 를 세미배리오그램semivariogram이라 한다.
공간데이터분석에서 배리오그램이란 대단이 중요하나, 이론이 아닌 실제 세상에서 모든 h 에서 계산을 수행한다는 것은 불가능하므로 데이터를 적절한 간격으로 잘라 수치라도 얻어내는 수밖에 없다.
정의
빈 Bij
D⊂R2 에서 N개의 데이터를 가지고 있을 때, 총 NC2=N(N−1)/2 쌍의 거리를 얻으며 가로 한 단위의 길이 hx 와 세로 한 단위의 길이 hy 를 계산하고 가로축과 세로축별로 빈bin을 나누어 집합 Bij 들을 얻는다. 이 때 다음을 경험적 세미배리오그램이라 한다.
γij∗=2∣Bij∣1{(k,l):(sk−sl)∈Bij}∑[Y(sk)−Y(sl)]2
D 에서 (i,j)번째 위치 (xi,yj) 마다 γij∗ 를 대응시킨 히트맵heatmap 혹은 서피스surface를 경험적 세미 배리오그램 등고선eSC(Empirical Semivariogram Contour)이라 한다.
거리 N(h)
거리 h 에 종속된 집합 N(h):={(sk,sl):∥sk−sl∥≈h} 에 대해 다음을 경험적 세미배리오그램empirical Semivariogram이라 한다.
γ^(h)=2∣N(h)∣1(sk,sl)∈N(h)∑[Y(sk)−Y(sl)]2
가로축을 h 로 두고 세로축을 γ^(h) 로 두고 그린 그림 자체를 세미배리오그램semivariogram이라 부르기도 한다.
- 집합 X 에 쓰인 절대값 기호 ∣X∣ 는 집합의 기수cardinality를 의미한다.
설명
본질적으로 두 정의는 같은 말인데 그냥 위쪽이 좀 더 정확하게 적혀있고 아래쪽이 좀 더 일반적으로 적혔다고 보면 된다. 직접 코드를 짜고 싶은 게 아닌 이상 어떤 정의를 보든 아무 상관 없으며, 시각화에 있어서 그 용도가 다르다고 해도 결국 서로 다른 것이 될 수는 없다.
γij∗→ ESC

ESC 그림은 위와 같이 경험적 배리오그램을 지도에 맞춰 시각화한 것으로, 아나이소트로피를 탐지하는 등의 탐색적 데이터분석에 요긴하게 쓰일 수 있다. 등고선이 둥글게 나타나면 아이소프로픽한 것이고 타원형으로 나타나면 아나이소트로피를 예상할 수 있는 식이다.
γ^(h)→ 세미배리오그램

애초에 세미배리오그램이라는 말의 -그램-gram 자체가 도해圖解라는 의미가 있는데, 이는 위의 그림에서 유래한다. 조금 더 자세한 내용은 세미배리오그램의 모형들에 대해 다룬 포스트에서 다루도록 하겠다.