logo

セミバリオグラムのモデル 📂統計的分析

セミバリオグラムのモデル

概要

空間統計分析では、空間過程アイソトロピックで、セミバリオグラムγ(h)=γ(d)\gamma \left( \left\| \mathbf{h} \right\| \right) = \gamma (d)を満たす場合、γ\gammaは複雑な行列の形ではなく、1次元スカラー関数、即ちγ:RR\gamma : \mathbb{R} \to \mathbb{R}として表現できる。これはポイントリファレンスデータY(s),Y(s+d)Y(s), Y(s + d)間の相関関係折れ線グラフで描けることを意味する。

モデル 1

(バリオグラムの等方性の投稿に続いて)

バリオグラムのグラフは、データの特性に応じていくつかの型に現れる。

これらをどう解釈するかはともかく、このような図を描く方法は、x軸をデータY(s),Y(s+d)Y(s), Y(s+d)間の距離dd、y軸をγ(d)\gamma (d)にすれば良い。そもそもこのように図で表されること自体、γ\gammaを「バリオグラム」と呼ぶのが自然な命名だと確認できる。

実際のデータでは、特定の長さddに正確に対応するデータペアが多くないかもしれないため、一定の区分をパーティションとして分けて、経験的に求めることができる。上の図はジュリアでバリオグラムを描いた例で、h=dh = dに従ってセミバリオグラムだけでなく、そのクラスの頻度も表示されている2

数式

バリオグラムをフィッティングするためのモデルとして、いくつかの関数が知られている。

ここでは、いくつかの重要なモデルについて簡単にコメントしていく:

  1. Linear:距離に比例して影響力が決まるモデルで、一見意味があるように見えるが、コバリオグラムとの解釈が難しいため、実際には使用されない。
  2. Spherical:一定の距離以上で影響力が完全に消えるモデルで、多くのデータで合理的な選択となる。
  3. Exponential:距離が遠くなるにつれて影響が指数的に減少する、最もシンプルで納得しやすいモデル 。学部生レベルのプロジェクトでは、これだけで十分。
  4. Matérn:y切片に相当するτ2\tau^{2}とグラフのスケールを決めるσ2\sigma^{2}のほか、形状自体に影響を与えるϕ\phiからν\nuまでが含まれ、上記のモデルの中では最も多くのデータに使用できる。Exponentialが簡単で無難なら、Matérnは最も強力で無難に多く使われるモデルと言える。数式で現れるKνK_{\nu}第1種変形ベッセル関数

これで、数式をもとにセミバリオグラムをどう読むか見ていこう。その前に、次の数式を覚えておくと良いが、γ\gammaCCはトレードオフの関係にあり、CCが共分散を意味するので、γ\gammaの値が高いということは、データ間の関係が低下するという意味になる。 VarY=γ(h)+C(h) \Var Y = \gamma ( \mathbf{h} ) + C ( \mathbf{h} )

一般的に、バリオグラムはttが大きくなるにつれてγ(t)\gamma (t)も大きくなり、ある程度からはさらに増加しない形を描くことが多い。直感的に、これは距離が離れるにつれてデータ間の関連性が低下し、ある距離を超えると特に関係がなくなることを表している。

ナゲット

Nugget:=γ(0+)=limt0+γ(t)=τ2 \text{Nugget} := \gamma \left( 0^{+} \right) = \lim_{t \to 0+} \gamma (t) = \tau^{2} 既知のモデルでは、τ2\tau^{2}に該当する値として

  • 理論的にはVarY=γ(h)+C(h)\Var Y = \gamma ( \mathbf{h} ) + C ( \mathbf{h} )なので、h=0\mathbf{h} = 0の時C(0)=VarYC ( 0 ) = \Var Yで、γ(0)=0\gamma ( 0 ) = 0であるべきだが
  • 実際のデータを扱うと、正確にデータh=0\left| \mathbf{h} \right| = 0の時は何の意味もなく、非常に近い点でも少しの差が出る。

このように、理論とは異なり生じるy切片をナゲットと呼ぶ。

シル

Sill:=limtγ(t)=τ2+σ2 \text{Sill} := \lim_{t \to \infty} \gamma (t) = \tau^{2} + \sigma^{2} 既知のモデルでは、τ2+σ2\tau^{2} + \sigma^{2}に該当する値として、γ(t)\gamma (t)シルと呼ばれる。モデルによっては理論的に収束しないかもしれないが、適切な許容値0.050.05を設けて「十分に天井に達したと思えば」その部分をシルと呼ぶことができる。特に、シルとナゲットの間の高さσ\sigma部分シルと呼ぶ。

レンジ

γ(t)\gamma (t)が初めてシルに触れる地点までをレンジと呼ぶ。シルを求める際、許容値を設けた場合は特に有効レンジとも呼ばれる。


  1. Banerjee. (2015). Hierarchical Modeling and Analysis for Spatial Data(2nd Edition): p24~29. ↩︎

  2. https://juliaearth.github.io/GeoStats.jl/stable/variography/empirical.html#Variograms ↩︎