배리오그램의 정의

정의 ¹

유클리드 공간의 픽스된 부분집합 $D \subset \mathbb{R}^{r}$ 에서 확률변수 $Y(s) : \Omega \to \mathbb{R}^{1}$ 의 집합인 공간과정 $\left\{ Y(s) \right\}_{s \in D}$ 와 방향벡터 $\mathbf{h} \in \mathbb{R}^{r}$ 를 생각해보자. 구체적으로 $n \in \mathbb{N}$ 개의 사이트를 $\left\{ s_{1} , \cdots , s_{n} \right\} \subset D$ 과 같이 나타내고, $Y(s)$ 는 모든 $s \in D$ 에 대해 분산이 존재하는 것으로 가정한다. 다음과 같이 정의되는 $2 \gamma ( \mathbf{h} )$ 를 배리오그램^variogram이라 한다. $$ 2 \gamma ( \mathbf{h} ) := E \left[ Y \left( s + \mathbf{h} \right) - Y(s) \right]^{2} $$ 특히 배리오그램의 절반 $\gamma ( \mathbf{h} )$ 를 세미배리오그램^{semivariogram}이라 한다.

설명

정상적 공간과정의 정의:
모든 $s \in D$ 에서 $\mu (s)$ 가 상수함수 $\mu (s) := \mu$ 면서 $s , s + \mathbf{h}$ 둘 다가 $D$ 에 속하게 하는 모든 $\mathbf{h}$ 에 대해 공분산이 어떤 함수 $C$ 에 대해 다음과 같이 $s$ 에 무관하게 $\mathbf{h}$ 만의 함수 $C : \mathbb{R}^{r} \to \mathbb{R}$ 로 나타날 때, $\left\{ Y(s) \right\}$ 가 약한 정상성^{weak Stationarity}을 가진다고 한다. $$ \operatorname{Cov} \left( Y (s) , Y \left( s + \mathbf{h} \right) \right) = C \left( \mathbf{h} \right) $$ 여기서 $C$ 를 공분산 함수^{covariance function} 혹은 코배리오그램^covariogram이라고 부른다.
$\left[ Y \left( s + \mathbf{h} \right) - Y(s) \right]$ 의 평균이 $0$ 이면서 분산이 오직 $\mathbf{h}$ 에만 의존하면 $\left\{ Y(s) \right\}$ 가 내재적 정상성^{intrinsic Stationarity}을 가진다고 한다. $$ \begin{align*} E \left[ Y \left( s + \mathbf{h} \right) - Y(s) \right] =& 0 \\ \Var \left[ Y \left( s + \mathbf{h} \right) - Y(s) \right] =& 2 \gamma ( \mathbf{h} ) \end{align*} $$

내재적 정상성

정의에서만 봤을 때 배리오그램 $2 \gamma ( \mathbf{h} ) = E \left[ Y \left( s + \mathbf{h} \right) - Y(s) \right]^{2}$ 는 사실 $s$ 에도 의존하는 함수지만, 보통 못해도 주어진 공간과정이 내재적 정상적이라는 것을 가정한다. 반대로 내재적 정상성의 정의 자체도 $2 \gamma ( \mathbf{h} )$ 가 $s$ 에 의존하지 않는다는 조건을 가지고 있으므로 이 둘은 떨어뜨려놓고 생각할 수가 없다.

약한 정상성

약한 정상성의 정의에서 등장하는 $C \left( \mathbf{h} \right)$ 를 공분산 함수라고 부르는 것은 자연스럽고, $\gamma$ 가 없이도 단독적으로 정의될 수 있음에도 굳이 코배리오그램이라 부르는 이유는 다음과 같은 관계를 가지고 있기 때문이다.

정리

약한 정상적 공간과정 $\left\{ Y (s) \right\}_{s \in D}$ 에 대해, 세미배리오그램 $\gamma \left( \mathbf{h} \right)$ 과 코배리오그램 $C \left( \mathbf{h} \right)$ 는 다음을 만족시킨다. $$ \Var Y = \gamma \left( \mathbf{h} \right) + C \left( \mathbf{h} \right) $$

증명

공간과정 $\left\{ Y \right\}$ 의 약한 정상성에 따라 모든 $\mathbf{h} \in \mathbb{R}^{r}$ 에 대해 $\operatorname{Cov} \left( Y (s) , Y \left( s + \mathbf{h} \right) \right) = C \left( \mathbf{h} \right)$ 에서 $\mathbf{h} = \mathbf{0}$ 와 같이 방향벡터에 영벡터를 대입해보면 다음을 얻는다. $$ C \left( \mathbf{0} \right) = \operatorname{Cov} \left( Y (s) , Y (s) \right) = \Var Y (s) $$

정상성의 포함관계: 강한 정상적 공간과정은 약한 정상적 공간과정이고, 약한 정상적 공간과정은 내재적이다. $$ \text{Strong} \implies \text{Weak} \implies \text{Intrinsic} $$

한편 약한 정상적 공간과정은 내재적 정상적 공간과정이므로 모든 $\mathbf{h} \in \mathbb{R}^{r}$ 에 대해 $$ \Var \left[ Y \left( s + \mathbf{h} \right) - Y(s) \right] = 2 \gamma ( \mathbf{h} ) $$ 이 성립한다. 이를 거꾸로 풀어가보면 $$ \begin{align*} & 2 \gamma \left( \mathbf{h} \right) \\ =& \Var \left[ Y \left( s + \mathbf{h} \right) - Y (s) \right] \\ =& \Var \left[ Y \left( s + \mathbf{h} \right) \right] + \Var \left[ Y (s) \right] - 2 \operatorname{Cov} \left[ Y \left( s + \mathbf{h} \right) , Y (s) \right] \\ =& \operatorname{Cov} \left[ Y \left( s + \mathbf{h} \right) , Y \left( s + \mathbf{h} \right) \right] + \operatorname{Cov} \left[ Y (s) , Y (s) \right] - 2 \operatorname{Cov} \left[ Y \left( s + \mathbf{h} \right) , Y (s) \right] \\ =& C ( \mathbf{0} ) + C ( \mathbf{0} ) - 2 C ( \mathbf{h} ) \\ =& 2 \left[ C ( \mathbf{0} ) - C ( \mathbf{h} ) \right] \\ =& 2 \left[ \Var Y - C ( \mathbf{h} ) \right] \end{align*} $$ 이므로, 다음의 등식을 얻는다. $$ \gamma \left( \mathbf{h} \right) = \Var Y - C \left( \mathbf{h} \right) $$

■

같이보기

아이소트로픽 배리오그램: 배리오그램이 방향에 의존하지 않고 오직 거리에만 의존할 때, 우리는 배리오그램이 아이소트로픽하다고 말한다.
세미배리오그램의 모형: 세미배리오그램이 아이소트로픽할 때, x축을 $d := \left\| \mathbf{h} \right\|$ 로 두고 y축을 $\gamma (h)$ 로 두고 그린 산점도를 특정 모델로 피팅해서 거리에 대한 분산이 어떻게 되는지 감을 잡을 수 있다. 이렇게 그림을 통해서 확인하는 점에서 $2 \gamma$ 와 $C$ 가 배리오'그램'이라 불리는 것이다.
경험적 배리오그램 $\gamma^{\ast}$: 실제 데이터에서는 $\mathbf{h}$ 와 정확히 일치하는 관측치가 많이 없을 수 있다. 분석에 앞서 데이터가 어떤 가정을 만족하는지 $\gamma^{\ast}$ 를 살펴봄직하다.

Banerjee. (2015). Hierarchical Modeling and Analysis for Spatial Data(2nd Edition): p24. ↩︎