logo

セミバリオグラムのモデル 📂統計的分析

セミバリオグラムのモデル

概要

空間統計分析では、空間過程アイソトロピックで、セミバリオグラムが$\gamma \left( \left\| \mathbf{h} \right\| \right) = \gamma (d)$を満たす場合、$\gamma$は複雑な行列の形ではなく、1次元スカラー関数、即ち$\gamma : \mathbb{R} \to \mathbb{R}$として表現できる。これはポイントリファレンスデータ$Y(s), Y(s + d)$間の相関関係折れ線グラフで描けることを意味する。

モデル 1

(バリオグラムの等方性の投稿に続いて)

バリオグラムのグラフは、データの特性に応じていくつかの型に現れる。

これらをどう解釈するかはともかく、このような図を描く方法は、x軸をデータ$Y(s), Y(s+d)$間の距離$d$、y軸を$\gamma (d)$にすれば良い。そもそもこのように図で表されること自体、$\gamma$を「バリオグラム」と呼ぶのが自然な命名だと確認できる。

実際のデータでは、特定の長さ$d$に正確に対応するデータペアが多くないかもしれないため、一定の区分をパーティションとして分けて、経験的に求めることができる。上の図はジュリアでバリオグラムを描いた例で、$h = d$に従ってセミバリオグラムだけでなく、そのクラスの頻度も表示されている2

数式

バリオグラムをフィッティングするためのモデルとして、いくつかの関数が知られている。

ここでは、いくつかの重要なモデルについて簡単にコメントしていく:

  1. Linear:距離に比例して影響力が決まるモデルで、一見意味があるように見えるが、コバリオグラムとの解釈が難しいため、実際には使用されない。
  2. Spherical:一定の距離以上で影響力が完全に消えるモデルで、多くのデータで合理的な選択となる。
  3. Exponential:距離が遠くなるにつれて影響が指数的に減少する、最もシンプルで納得しやすいモデル 。学部生レベルのプロジェクトでは、これだけで十分。
  4. Matérn:y切片に相当する$\tau^{2}$とグラフのスケールを決める$\sigma^{2}$のほか、形状自体に影響を与える$\phi$から$\nu$までが含まれ、上記のモデルの中では最も多くのデータに使用できる。Exponentialが簡単で無難なら、Matérnは最も強力で無難に多く使われるモデルと言える。数式で現れる$K_{\nu}$は第1種変形ベッセル関数

これで、数式をもとにセミバリオグラムをどう読むか見ていこう。その前に、次の数式を覚えておくと良いが、$\gamma$と$C$はトレードオフの関係にあり、$C$が共分散を意味するので、$\gamma$の値が高いということは、データ間の関係が低下するという意味になる。 $$ \operatorname{Var} Y = \gamma ( \mathbf{h} ) + C ( \mathbf{h} ) $$

一般的に、バリオグラムは$t$が大きくなるにつれて$\gamma (t)$も大きくなり、ある程度からはさらに増加しない形を描くことが多い。直感的に、これは距離が離れるにつれてデータ間の関連性が低下し、ある距離を超えると特に関係がなくなることを表している。

ナゲット

$$ \text{Nugget} := \gamma \left( 0^{+} \right) = \lim_{t \to 0+} \gamma (t) = \tau^{2} $$ 既知のモデルでは、$\tau^{2}$に該当する値として

  • 理論的には$\operatorname{Var} Y = \gamma ( \mathbf{h} ) + C ( \mathbf{h} )$なので、$\mathbf{h} = 0$の時$C ( 0 ) = \operatorname{Var} Y$で、$\gamma ( 0 ) = 0$であるべきだが
  • 実際のデータを扱うと、正確にデータ$\left| \mathbf{h} \right| = 0$の時は何の意味もなく、非常に近い点でも少しの差が出る。

このように、理論とは異なり生じるy切片をナゲットと呼ぶ。

シル

$$ \text{Sill} := \lim_{t \to \infty} \gamma (t) = \tau^{2} + \sigma^{2} $$ 既知のモデルでは、$\tau^{2} + \sigma^{2}$に該当する値として、$\gamma (t)$のシルと呼ばれる。モデルによっては理論的に収束しないかもしれないが、適切な許容値$0.05$を設けて「十分に天井に達したと思えば」その部分をシルと呼ぶことができる。特に、シルとナゲットの間の高さ$\sigma$を部分シルと呼ぶ。

レンジ

$\gamma (t)$が初めてシルに触れる地点までをレンジと呼ぶ。シルを求める際、許容値を設けた場合は特に有効レンジとも呼ばれる。


  1. Banerjee. (2015). Hierarchical Modeling and Analysis for Spatial Data(2nd Edition): p24~29. ↩︎

  2. https://juliaearth.github.io/GeoStats.jl/stable/variography/empirical.html#Variograms ↩︎