logo

공간 과정의 정상성 📂통계적분석

공간 과정의 정상성

정의 1

유클리드 공간의 픽스된 부분집합 $D \subset \mathbb{R}^{r}$ 에서 확률변수 $Y(s) : \Omega \to \mathbb{R}^{1}$ 의 집합공간과정 $\left\{ Y(s) \right\}_{s \in D}$ 와 방향벡터 $\mathbf{h} \in \mathbb{R}^{r}$ 를 생각해보자. 구체적으로 $n \in \mathbb{N}$ 개의 사이트site를 $\left\{ s_{1} , \cdots , s_{n} \right\} \subset D$ 과 같이 나타내고, $Y(s)$ 는 모든 $s \in D$ 에 대해 분산이 존재하는 것으로 가정한다.

  1. 모든 $\left\{ s_{1} , \cdots , s_{n} \right\}$ 와 모든 $\mathbf{h}$ 에 대해 다음 두 랜덤벡터의 분포가 같으면 $\left\{ Y(s) \right\}$ 가 강한 정상성strong Stationarity을 가진다고 한다. $$ \left( Y \left( s_{1} \right) , \cdots , Y \left( s_{n} \right) \right) \\ \left( Y \left( s_{1} + \mathbf{h} \right) , \cdots , Y \left( s_{n} + \mathbf{h} \right) \right) $$
  2. 모든 $s \in D$ 에서 $\mu (s)$ 가 상수함수 $\mu (s) := \mu$ 면서 $s , s + \mathbf{h}$ 둘 다가 $D$ 에 속하게 하는 모든 $\mathbf{h}$ 에 대해 공분산이 어떤 함수 $C$ 에 대해 다음과 같이 $s$ 에 무관하게 $\mathbf{h}$ 만의 함수 $C : \mathbb{R}^{r} \to \mathbb{R}$ 로 나타날 때, $\left\{ Y(s) \right\}$ 가 약한 정상성weak Stationarity을 가진다고 한다. $$ \operatorname{Cov} \left( Y (s) , Y \left( s + \mathbf{h} \right) \right) = C \left( \mathbf{h} \right) $$ 여기서 $C$ 를 공분산 함수covariance function 혹은 코배리오그램covariogram이라고 부르고, 특히 $\left\| \mathbf{h} \right\| \to \infty$ 일 때 $C \left( \mathbf{h} \right) \to 0$ 이면 $\left\{ Y(s) \right\}$ 가 에르고딕ergodic이라 한다.
  3. $\left[ Y \left( s + \mathbf{h} \right) - Y(s) \right]$ 의 평균이 $0$ 이면서 분산이 오직 $\mathbf{h}$ 에만 의존하면 $\left\{ Y(s) \right\}$ 가 내재적 정상성intrinsic Stationarity을 가진다고 한다. $$ \begin{align*} E \left[ Y \left( s + \mathbf{h} \right) - Y(s) \right] =& 0 \\ \operatorname{Var} \left[ Y \left( s + \mathbf{h} \right) - Y(s) \right] =& 2 \gamma ( \mathbf{h} ) \end{align*} $$

정리

강한 정상적 공간과정은 약한 정상적 공간과정이고, 약한 정상적 공간과정은 내재적이다. $$ \text{Strong} \implies \text{Weak} \implies \text{Intrinsic} $$ 한편 모든 $\left\{ s_{1} , \cdots , s_{n} \right\}$ 에 대해 랜덤벡터 $\left( Y \left( s_{1} \right) , \cdots , Y \left( s_{n} \right) \right)$ 가 다변량정규분포를 따르면 $\left\{ Y(s) \right\}$ 가 가우시안Gaussian이라 한다. 약한 정상적 공간과정이 강한 정상적 공간과적이 되게끔 하는 필요충분조건은 공간과정이 가우시안인 것이다. $$ \text{Strong} \overset{\text{gaussian}}{\impliedby} \text{Weak} $$

설명

정상성이 필요한 이유

시계열분석에서의 정상성이 온갖 모델의 가정이 되었던 것처럼, 공간과정의 정상성 역시 공간데이터의 분석에 앞서 상식적으로 만족해야할 성질들을 일컫는다. 정상성을 가정할 수 없다면 많은 경우에서 분석 자체가 무의미해진다.

  • 강한 정상성은 사실 두말할 것도 없이 정상성 그 자체다. 문제는 이론적으로 이것이 진정한 정상성이라고 할지라도 현실 속에서 그 예를 찾아보기 어려울 수 있다는 것이고, 약한 정상성이라는 완화된 조건으로 후퇴할 필요가 있다.
  • 약한 정상성은 모든 사이트에서의 분포까지는 몰라도, 적어도 평균은 일정하면서 그 공분산이 두 위치 사이의 상대적인 거리와 방향 $\mathbf{h}$ 에만 의존하면 된다고 타협했다.
  • 내재적 정상성의 내재적intrinsic이라는 표현은 통계학만 공부하던 사람들에게는 낯설 수 있는데, 다음의 정의와 유사하게 다른 두 지점에 관측된 값의 차이가 오로지 $\mathbf{h}$ 에만 의존한다는 점에서 '내재적'이라 불리지 않을 이유가 없다.

내재적 함수의 정의: 미분기하에서 (단위 노멀 $\mathbf{n}$에는 의존하지 않고) 제1 기본형식의 계수 $g_{ij}$에만 의존하는 함수를 내재적intrinsic, 본질적이라 한다.

에르고딕

사실 Ergodic의 발음은 [얼가딕]에 가깝지만 그냥 넘어가자.

공간과정이 에르고딕하다는 것, 다시 말해 $\left\| \mathbf{h} \right\| \to \infty$ 일 때 $C \left( \mathbf{h} \right) \to 0$ 즉 $$ \lim_{\left\| \mathbf{h} \right\| \to \infty} C \left( \mathbf{h} \right) = 0 $$ 이라는 것은 방향이야 어찌되든 두 사이트 간의 거리가 멀어지면서 그 상관관계가 떨어진다는 가정으로써 꽤나 상식적이다. 물론 모든 데이터가 에르고딕하진 않겠지만, 어쨌거나 직관적으로는 대부분의 경우 멀어질수록 관계가 약해지는 게 보편적일 것이다. $C \left( \mathbf{h} \right)$ 가 주기성을 가진다거나 아주 독특한 예가 아닌 이상, 정확히 리미트 센스에서 에르고딕까진 아니라도 $C \left( \mathbf{h} \right) \searrow \varepsilon$ 정도는 기대해봄직 하다.

보통 시간 $t$ 에 종속되는 것으로 간주되는 확률과정에서의 에르고딕은 확률과정 그 자체가 아니라 특정 상태가 긴 시간이 지난 후($t \to \infty$)에도 처음 상태로 돌아온다는 식의 개념인 것과 유사하게, 공간과정에서는 시간이 아니라 먼 거리 너머($\left\| \mathbf{h} \right\| \to \infty$)에선 서로 상관관계가 떨어진다는 식으로 접근하고 있다. 물론 많은 분야에서 에르고딕ergodic이라는 표현을 시간과 초기상태와 연결지어서 설명하는 것은 사실이지만, 아주 억지스러운 명명까지는 아닌 것이다.

같이보기


  1. Banerjee. (2003). Hierarchical Modeling and Analysis for Spatial Data: p23~24. ↩︎