공간 과정의 정상성
Stationarity of Spatial Process
정의 1
유클리드 공간의 픽스된 부분집합 $D \subset \mathbb{R}^{r}$ 에서 확률변수 $Y(s) : \Omega \to \mathbb{R}^{1}$ 의 집합인 공간과정 $\left\{ Y(s) \right\}_{s \in D}$ 와 방향벡터 $\mathbf{h} \in \mathbb{R}^{r}$ 를 생각해보자. 구체적으로 $n \in \mathbb{N}$ 개의 사이트Site를 $\left\{ s_{1} , \cdots , s_{n} \right\} \subset D$ 과 같이 나타내고, $Y(s)$ 는 모든 $s \in D$ 에 대해 분산이 존재하는 것으로 가정한다.
- 모든 $\left\{ s_{1} , \cdots , s_{n} \right\}$ 와 모든 $\mathbf{h}$ 에 대해 다음 두 랜덤벡터의 분포가 같으면 $\left\{ Y(s) \right\}$ 가 강한 정상성Strong Stationarity을 가진다고 한다. $$ \left( Y \left( s_{1} \right) , \cdots , Y \left( s_{n} \right) \right) \\ \left( Y \left( s_{1} + \mathbf{h} \right) , \cdots , Y \left( s_{n} + \mathbf{h} \right) \right) $$
- 모든 $s \in D$ 에서 $\mu (s)$ 가 상수함수 $\mu (s) := \mu$ 면서 $s , s + \mathbf{h}$ 둘 다가 $D$ 에 속하게 하는 모든 $\mathbf{h}$ 에 대해 공분산이 어떤 함수 $C$ 에 대해 다음과 같이 $s$ 에 무관하게 $\mathbf{h}$ 만의 함수 $C : \mathbb{R}^{r} \to \mathbb{R}$ 로 나타날 때, $\left\{ Y(s) \right\}$ 가 약한 정상성Weak Stationarity을 가진다고 한다. $$ \text{Cov} \left( Y (s) , Y \left( s + \mathbf{h} \right) \right) = C \left( \mathbf{h} \right) $$ 여기서 $C$ 를 공분산 함수Covariance Function 혹은 코배리오그램Covariogram이라고 부르고, 특히 $\left\| \mathbf{h} \right\| \to \infty$ 일 때 $C \left( \mathbf{h} \right) \to 0$ 이면 $\left\{ Y(s) \right\}$ 가 에르고딕Ergodic이라 한다.
- $\left[ Y \left( s + \mathbf{h} \right) - Y(s) \right]$ 의 평균이 $0$ 이면서 분산이 오직 $\mathbf{h}$ 에만 의존하면 $\left\{ Y(s) \right\}$ 가 내재적 정상성Intrinsic Stationarity을 가진다고 한다. $$ \begin{align*} E \left[ Y \left( s + \mathbf{h} \right) - Y(s) \right] =& 0 \\ \text{Var} \left[ Y \left( s + \mathbf{h} \right) - Y(s) \right] =& 2 \gamma ( \mathbf{h} ) \end{align*} $$
- $2 \gamma \left( \mathbf{h} \right)$ 를 배리오그램이라 한다.
정리
강한 정상적 공간과정은 약한 정상적 공간과정이고, 약한 정상적 공간과정은 내재적이다. $$ \text{Strong} \implies \text{Weak} \implies \text{Intrinsic} $$ 한편 모든 $\left\{ s_{1} , \cdots , s_{n} \right\}$ 에 대해 랜덤벡터 $\left( Y \left( s_{1} \right) , \cdots , Y \left( s_{n} \right) \right)$ 가 다변량정규분포를 따르면 $\left\{ Y(s) \right\}$ 가 가우시안Gaussian이라 한다. 약한 정상적 공간과정이 강한 정상적 공간과적이 되게끔 하는 필요충분조건은 공간과정이 가우시안인 것이다. $$ \text{Strong} \overset{\text{gaussian}}{\impliedby} \text{Weak} $$
설명
정상성이 필요한 이유
시계열분석에서의 정상성이 온갖 모델의 가정이 되었던 것처럼, 공간과정의 정상성 역시 공간데이터의 분석에 앞서 상식적으로 만족해야할 성질들을 일컫는다. 정상성을 가정할 수 없다면 많은 경우에서 분석 자체가 무의미해진다.
- 강한 정상성은 사실 두말할 것도 없이 정상성 그 자체다. 문제는 이론적으로 이것이 진정한 정상성이라고 할지라도 현실 속에서 그 예를 찾아보기 어려울 수 있다는 것이고, 약한 정상성이라는 완화된 조건으로 후퇴할 필요가 있다.
- 약한 정상성은 모든 사이트에서의 분포까지는 몰라도, 적어도 평균은 일정하면서 그 공분산이 두 위치 사이의 상대적인 거리와 방향 $\mathbf{h}$ 에만 의존하면 된다고 타협했다.
- 내재적 정상성의 내재적Intrinsic이라는 표현은 통계학만 공부하던 사람들에게는 낯설 수 있는데, 다음의 정의와 유사하게 다른 두 지점에 관측된 값의 차이가 오로지 $\mathbf{h}$ 에만 의존한다는 점에서 '내재적'이라 불리지 않을 이유가 없다.
내재적 함수의 정의: 미분기하에서 (단위 노멀 $\mathbf{n}$에는 의존하지 않고) 제1 기본형식의 계수 $g_{ij}$에만 의존하는 함수를 내재적intrinsic, 본질적이라 한다.
에르고딕
사실 Ergodic의 발음은 [얼가딕]에 가깝지만 그냥 넘어가자.
공간과정이 에르고딕하다는 것, 다시 말해 $\left\| \mathbf{h} \right\| \to \infty$ 일 때 $C \left( \mathbf{h} \right) \to 0$ 즉 $$ \lim_{\left\| \mathbf{h} \right\| \to \infty} C \left( \mathbf{h} \right) = 0 $$ 이라는 것은 방향이야 어찌되든 두 사이트 간의 거리가 멀어지면서 그 상관관계가 떨어진다는 가정으로써 꽤나 상식적이다. 물론 모든 데이터가 에르고딕하진 않겠지만, 어쨌거나 직관적으로는 대부분의 경우 멀어질수록 관계가 약해지는 게 보편적일 것이다. $C \left( \mathbf{h} \right)$ 가 주기성을 가진다거나 아주 독특한 예가 아닌 이상, 정확히 리미트 센스에서 에르고딕까진 아니라도 $C \left( \mathbf{h} \right) \searrow \varepsilon$ 정도는 기대해봄직 하다.
보통 시간 $t$ 에 종속되는 것으로 간주되는 확률과정에서의 에르고딕은 확률과정 그 자체가 아니라 특정 상태가 긴 시간이 지난 후($t \to \infty$)에도 처음 상태로 돌아온다는 식의 개념인 것과 유사하게, 공간과정에서는 시간이 아니라 먼 거리 너머($\left\| \mathbf{h} \right\| \to \infty$)에선 서로 상관관계가 떨어진다는 식으로 접근하고 있다. 물론 많은 분야에서 에르고딕Ergodic이라는 표현을 시간과 초기상태와 연결지어서 설명하는 것은 사실이지만, 아주 억지스러운 명명까지는 아닌 것이다.
같이보기
-
Banerjee. (2003). Hierarchical Modeling and Analysis for Spatial Data: p23~24. ↩︎