logo

세미배리오그램의 모형들 📂통계적분석

세미배리오그램의 모형들

개요

공간통계분석에서 공간과정아이소트로픽해서 세미배리오그램이 $\gamma \left( \left\| \mathbf{h} \right\| \right) = \gamma (d)$ 을 만족하는 경우 $\gamma$ 는 복잡한 행렬 꼴이 아닌 1차원 스칼라함수, 즉 $\gamma : \mathbb{R} \to \mathbb{R}$ 으로써 표현될 수 있다. 이는 포인트 레퍼런스 데이터 $Y(s), Y(s + d)$ 들 간의 상관관계꺾은선 그래프로 그려낼 수 있다는 것이다.

모형 1

(배리오그램의 등방성 포스트에 이어서)

배리오그램의 그래프들은 데이터의 특성에 따라 몇가지 유형으로 나타날 수 있다.

이것들을 어떻게 해석하는지는 둘째치고, 이러한 그림을 그리는 방법은 간단히 x축을 데이터 $Y(s), Y(s+d)$ 사이의 거리 $d$, y축을 $\gamma (d)$ 로 두면 된다. 애초에 이렇게 그림으로 나타내게 된다는 점에서 $\gamma$ 를 ‘배리오그램’이라 부르는 것은 자연스러운 명명임을 확인할 수 있다.

실제 데이터에서는 특정 길이 $d$ 에 정확히 해당하는 데이터 쌍이 많지 않을 수 있기 때문에 일정 구간을 파티션으로 나누어서 경험적으로empirical 구할 수 있다. 위 그림은 줄리아에서 배리오그램을 그린 예시로써 $h = d$ 에 따라 세미배리오그램뿐만 아니라 해당 계급의 도수까지 표시되어있다2.

수식

배리오그램을 피팅하기 위한 모형으로써 여러가지 함수들이 알려져있다.

여기서는 몇가지 중요한 모델에 대해서만 간략하게 코멘트하고 넘어가도록 하겠다:

  1. Linear: 거리에 비례해서 영향력이 정해지는 모델로써 언뜻 말이 되는 것처럼 보이지만, 코배리오그램과의 해석이 곤란해서 실제로는 쓸 일이 없는 모델이다.
  2. Spherical: 일정 거리 이상에서 영향력이 완전히 사라져버리는 모델로써 상당히 많은 데이터에서 합리적인 선택이 된다.
  3. Exponential: 거리가 멀어질수록 그 영향이 지수적으로 줄어들어가는, 가장 간단하고 납득하기 쉬운 모델이다. 학부생 수준의 프로젝트에서는 이정도만 해도 충분하다.
  4. Matérn: y절편에 해당하는 $\tau^{2}$ 과 그래프의 스케일을 결정짓는 $\sigma^{2}$ 외에도 개형 자체에 영향을 미치는 $\phi$ 에 $\nu$ 까지 포함되어 위의 모델 중에서는 가장 폭넓게 많은 데이터에 사용될 수 있다. Exponential이 쉬워서 무난하다면 Matérn은 가장 강해서 무난하게 많이 사용하는 모델이라 볼 수 있다. 수식에서 등장하는 $K_{\nu}$ 는 제1종 변형 베셀 함수다.

이제 수식에 빗대서 세미배리오그램을 어떻게 읽는지 알아보자. 그에 앞서 다음의 수식을 숙지해두면 좋은데, $\gamma$ 와 $C$ 는 트레이드 오프의 관계에 있으며 $C$ 가 공분산을 의미하므로 $\gamma$ 의 값이 높다는 것은 그만큼 데이터 사이의 관계가 떨어진다는 의미가 된다. $$ \operatorname{Var} Y = \gamma ( \mathbf{h} ) + C ( \mathbf{h} ) $$

보편적으로 배리오그램은 위와 같이 $t$ 가 커지면서 $\gamma (t)$ 도 커지다가 어느정도부터 더 이상 증가하지 않는 개형을 그리는 경우가 많다. 직관적으로 이는 거리가 멀어지면서 데이터들의 관련성이 떨어져가다가 일정 거리를 벗어나면 특별히 관계가 없어지는 것을 묘사하고 있다.

너겟

$$ \text{Nugget} := \gamma \left( 0^{+} \right) = \lim_{t \to 0+} \gamma (t) = \tau^{2} $$ 알려진 모델들에서는 $\tau^{2}$ 에 해당하는 값으로써

  • 이론적으로는 $\operatorname{Var} Y = \gamma ( \mathbf{h} ) + C ( \mathbf{h} )$ 이므로 $\mathbf{h} = 0$ 일 때 $C ( 0 ) = \operatorname{Var} Y$ 이어서 $\gamma ( 0 ) = 0$ 이어야하지만
  • 실제 데이터를 다뤄보면 정확히 데이터 $\left| \mathbf{h} \right| = 0$ 일 때는 아무런 의미가 없으며 아주 가까운 점들도 약간의 차이를 보이게 된다.

이렇듯 이론과 달리 생겨나는 y절편을 너겟nugget이라 부른다.

$$ \text{Sill} := \lim_{t \to \infty} \gamma (t) = \tau^{2} + \sigma^{2} $$ 알려진 모델들에서는 $\tau^{2} + \sigma^{2}$ 에 해당하는 값으로써, $\gamma (t)$ 의 sill이라 부른다. 모델에 따라서는 이론적으로 수렴하지 않을 수 있지만 적당한 허용치 $0.05$ 정도를 두어 ‘충분히 천장에 닿았다고 생각되면’ 그 부분을 씰이라 부를 수 있다. 특히 씰과 너겟 사이의 높이 $\sigma$ 를 부분 씰partial Sill이라 부른다.

레인지

$\gamma (t)$ 가 처음으로 씰과 닿은 지점까지를 레인지range라 한다. 씰을 구할 때 허용치를 준 경우 특히 효율적 레인지effective Range라 부르기도 한다.


  1. Banerjee. (2015). Hierarchical Modeling and Analysis for Spatial Data(2nd Edition): p24~29. ↩︎

  2. https://juliaearth.github.io/GeoStats.jl/stable/variography/empirical.html#Variograms ↩︎