공간데이터분석에서 랜덤필드Y=(Y(s1),⋯,Y(sn)) 의 평균μ∈R 과 공분산행렬Σ∈Rn×n 과 다변량정규분포를 따르는 ε∼Nn(0,Σ) 에 대해, 다음의 모델
Y=μ1+ε
을 통해 새로운 사이트sites0 의 Y(s0) 를 추정한 값을 오디너리 크리깅 추정치ordinary Kriging Estimate라 한다. 이렇게 모델을 세워서 추정하는 행위 자체를 크리깅이라 부르기도 한다.
크리깅kringing이란 다니 G. 크리거daine G. Krige이라는 거장의 이름이 그대로 동사화 된 것이다. 보통의 통계학에서 예측, 예상, 적합, 추정 등등으로 쓰는 표현은 물론 ‘비어있는 공간’의 값을 채워넣는다는 의미에서 인터폴레이션 기법처럼 설명하는 경우도 제법 있는데, 이 모든 설명을 줄여서 크리깅하다라는 일반동사가 된 것으로 보면 된다.
좁은 의미에서의 응용수학, 컴퓨터 알고리즘, 머신러닝 기법 등과 구분되는 크리깅의 특징은 어쨌거나 통계학답게 그 평균(점추정량)만이 아니라 그 분산까지 고려한다는 것이다. 상상하기를, 각 지점에서 분산이 높은 곳의 크리깅 추정치는 마찬가지로 분산이 크고 분산이 낮은 곳들 사이의 지점에선 분산이 낮을 것이다. 이는 어떤 데이터의 관측소 입지를 선정하는데에도 쓰일 수 있는데, 예로써 미세먼지의 농도를 측정한다고 하면 미세먼지를 어떻게 측정할지가 궁금한 게 아니라 그 측정이 얼마나 정확한지―다시 말해 측정치의 분산이 가장 높은 곳을 선정하는 식의 접근법이 있다.
종속성
Y=μ1+ε,where ε∼Nn(0,Σ)
모델의 수식을 보면 회귀분석이나 시계열분석과 달리 ε 이야말로 우리의 관심사다. Σ 가 대각행렬, 즉 관측치마다의 종속성이 없다면 애초에 공간적인 구조가 없다는 의미고 딱히 크리깅이라는 걸 할 이유가 없다. 실제 분석이서 이 Σ 는 세미배리오그램의 모형을 통해 다음과 같이 정해진다.
Σ=σ2H(ϕ)+τ2I
여기서 τ2 는 너겟 이펙트 분산(이론과 달리 실제 데이터에서 거리에 상관없이 기본적으로 보게 되는 공분산성)고, I 는 항등행렬이다.
일반화
다음과 같이 다른 독리변수에 대해 일반화 모델을 사용하는 크리깅을 유니버설 크리깅이라고 한다.
Y=Xβ+ε
공식
랜덤필드{Y(sk)}k=1n 가 내재적 정상 공간과정이라고 하고 새롭계 예측하고 싶은 지점을 s0 이라 하자. 배리오그램2γ 에 대해 행렬Γ∈Rn×n 를 (Γ)ij:=γ(si−sj) 와 같이 정의하고 벡터γ0∈Rn 을 (γ0)i:=(γ(s0−si)) 와 같이 정의하자. 어떤 벡터 l=(l1,⋯,ln) 에 대해 Y(s0) 의 최선선형불편예측량bLUP, Best Linear Unbiased Predictor은 l 과 Y 의 내적인
lTY=[l1⋯ln]Y(s1)Y(s2)⋮Y(sn)=k=1∑nlkY(sk)
이며, 벡터 l 은 구체적으로 다음과 같이 구해진다.
l=Γ−1(γ0+1TΓ−111−1TΓ−1γ01)
구체적으로 크리깅이 어떻게 이루어지는지 수식으로 알아보는 과정이다. 이 공식의 가정에서 가우시안 프로세스라는 가정까지 추가되면 오디너리 크리깅이 된다.
Part 1. 최적화 문제
어떤 상수 l1,⋯,ln,δ0∈R 들에 대해 새로운 Y(s0) 를 기존 데이터의 선형결합y^(s0)=l1y1+⋯+lnyn+δ0
으로 예측하고 싶다고 하자. 이는 다시 말해 목적 함수E[Y(s0)−(k∑lkY(sk)+δ0)]2
를 최소화하는 최적해l1,⋯,ln,δ0 를 찾는 것이다.
내재적 정상성의 정의: 유클리드 공간의 픽스된 부분집합D⊂Rr 에서 확률변수Y(s):Ω→R1 의 집합인 공간과정{Y(s)}s∈D 와 방향벡터 h∈Rr 를 생각해보자. 구체적으로 n∈N 개의 사이트site를 {s1,⋯,sn}⊂D 과 같이 나타내고, Y(s) 는 모든 s∈D 에 대해 분산이 존재하는 것으로 가정한다. [Y(s+h)−Y(s)] 의 평균이 0 이면서 분산이 오직 h 에만 의존하면 {Y(sk)} 가 내재적 정상성intrinsic Stationarity을 가진다고 한다.
E[Y(s+h)−Y(s)]=Var[Y(s+h)−Y(s)]=02γ(h)
여기서 {Y(sk)}k=1n 가 내재적 정상성을 가진다면, ∑klk=1 이라 제약조건을 둠으로써
===E[Y(s0)−(k∑lkY(sk))]E[k∑lkY(s0)−(k∑lkY(sk))]k∑lkE[Y(s0)−Y(sk)]0
이 되게끔 할 수 있다. 이에 따라 우리가 최소화할 목적 함수는 δ0 만 밖으로 빠진 다음의 꼴이 된다.
E[Y(s0)−k∑lkY(sk)]2+δ02
여기서 δ02 는 예측과 상관없다. 실제로도 모델이 Y=μ1+ε 이라면 δ0 는 μ 에 해당해서 δ0=0 으로 두어
E[Y(s0)−k∑lkY(sk)]2
라 해도 무방하다. 이제 a0=1 이라 두고 ak=−lk 라 하면
E[Y(s0)−k=1∑nlkY(sk)]2=E[k=0∑nakY(sk)]2
이므로, 우리는 다음과 같은 최적화문제를 라그랑주 승수법으로 풀게 된 것이다.
Minimizesubject toE[k=0∑nakY(sk)]2k=0∑nak=0
Part 2. 세미배리오그램 γ
이제 E[∑k=0nakY(sk)]2 를 ‘우리가 데이터에서 계산할 수 있을 것으로 가정할 수 있는’ 세미배리오그램에 종속된 꼴로 나타내보자.
세미배리오그램의 정의: 유클리드 공간의 픽스된 부분집합D⊂Rr 에서 확률변수Y(s):Ω→R1 의 집합인 공간과정{Y(s)}s∈D 와 방향벡터 h∈Rr 를 생각해보자. 구체적으로 n∈N 개의 사이트를 {s1,⋯,sn}⊂D 과 같이 나타내고, Y(s) 는 모든 s∈D 에 대해 분산이 존재하는 것으로 가정한다. 다음과 같이 정의되는 2γ(h) 를 배리오그램variogram이라 한다.
2γ(h):=E[Y(s+h)−Y(s)]2
특히 배리오그램의 절반 γ(h) 를 세미배리오그램semivariogram이라 한다.
γ(si−sj) 를 두 사이트 si,sj 사이의 방향벡터에 따른 세미배리오그램이라 하자. ∑0=1nak=0 을 만족하는 아무 집합{ak:k=1,⋯,n}⊂R 에 대해 다음이 성립한다.
i∑j∑aiajγ(si−sj)=−E[i∑aiY(si)]2
이는 다음의 전개
=======i∑j∑aiajγ(si−sj)21i∑j∑aiajVar[Y(si)−Y(sj)]21i∑j∑aiajE[Y(si)−Y(sj)]221i∑j∑aiajE([Y(si)]2−2Y(si)Y(sj)+[Y(sj)]2)−i∑j∑aiajE(Y(si)Y(sj))−Ei∑j∑aiajY(si)Y(sj)−Ei∑aiY(si)j∑ajY(sj)−E[i∑aiY(si)]2∵cases of i=j
에서 확인할 수 있다. 이제 γij=γ(si−sj) 라 하고 γ0j=γ(s0−sj) 라 두면 우리의 목적함수는
==E[i∑aiY(si)]2−i∑j∑aiajγ(si−sj)−i∑j∑liljγij+2i∑liγ0i
와 같이 나타나고, 라그랑주 승수법에 따라 제약조건 ∑ili=1 에 라그랑주 승수lagrange Multiplier를 곱해서 빼면
−i∑j∑liljγij+2i∑liγ0i−λi∑li
을 얻는다. 따라서 li 들로 편미분해서
−j∑ljγij+γ0i−λ=0
이 될 때 목적함수를 최소화 시킬 수 있음을 알 수 있다.
Part3. 최적해
이제 구체적인 최적해의 공식을 유도할 것이다. 행렬Γ∈Rn×n 의 (i,j) 성분을 γij 로, 즉 (Γ)ij:=γij 라 하고 벡터 γ0∈Rn 을 (γ0)i:=γ0i 와 같이 정의하자. 계수의 벡터 역시 l:=(l1,⋯,ln)∈Rn 이라 두면 Part2에서 얻은 식은 다음과 같은 행렬/벡터 폼으로 나타낼 수 있다.
⟹⟹−j∑ljγij+γ0i−λ=0−Γl+γ0−λ1=0Γl+λ1=γ0
한편 제약조건에서
i∑li=1⟺[1⋯1]l1⋮ln=1⟺1Tl=1
이므로 1Tl=1 도 얻을 수 있다. 여기서 xT 는 x 의 트랜스포즈를 나타낸다. 우선 단독으로 λ 는
1====1Tl1TΓ−1Γl1TΓ−1(γ0−λ1)1TΓ−1γ0−λ1TΓ−11
이고, 정리하면
−λ=1TΓ−111−1TΓ−1γ0
와 같이 나타낼 수 있다. 이제 l 은 다 구한 것이나 마찬가지다.
⟹⟹⟹Γl+λ1=γ0Γl=γ0−λ1Γl=γ0+1TΓ−111−1TΓ−1γ01l=Γ−1(γ0+1TΓ−111−1TΓ−1γ01)
■
Banerjee. (2015). Hierarchical Modeling and Analysis for Spatial Data(2nd Edition): p25, 40~41. ↩︎