セミバリオグラムのモデル
概要
空間統計分析では、空間過程がアイソトロピックで、セミバリオグラムが$\gamma \left( \left\| \mathbf{h} \right\| \right) = \gamma (d)$を満たす場合、$\gamma$は複雑な行列の形ではなく、1次元スカラー関数、即ち$\gamma : \mathbb{R} \to \mathbb{R}$として表現できる。これはポイントリファレンスデータ$Y(s), Y(s + d)$間の相関関係が折れ線グラフで描けることを意味する。
モデル 1
(バリオグラムの等方性の投稿に続いて)
バリオグラムのグラフは、データの特性に応じていくつかの型に現れる。
これらをどう解釈するかはともかく、このような図を描く方法は、x軸をデータ$Y(s), Y(s+d)$間の距離$d$、y軸を$\gamma (d)$にすれば良い。そもそもこのように図で表されること自体、$\gamma$を「バリオグラム」と呼ぶのが自然な命名だと確認できる。
実際のデータでは、特定の長さ$d$に正確に対応するデータペアが多くないかもしれないため、一定の区分をパーティションとして分けて、経験的に求めることができる。上の図はジュリアでバリオグラムを描いた例で、$h = d$に従ってセミバリオグラムだけでなく、そのクラスの頻度も表示されている2。
数式
バリオグラムをフィッティングするためのモデルとして、いくつかの関数が知られている。
ここでは、いくつかの重要なモデルについて簡単にコメントしていく:
- Linear:距離に比例して影響力が決まるモデルで、一見意味があるように見えるが、コバリオグラムとの解釈が難しいため、実際には使用されない。
- Spherical:一定の距離以上で影響力が完全に消えるモデルで、多くのデータで合理的な選択となる。
- Exponential:距離が遠くなるにつれて影響が指数的に減少する、最もシンプルで納得しやすいモデル 。学部生レベルのプロジェクトでは、これだけで十分。
- Matérn:y切片に相当する$\tau^{2}$とグラフのスケールを決める$\sigma^{2}$のほか、形状自体に影響を与える$\phi$から$\nu$までが含まれ、上記のモデルの中では最も多くのデータに使用できる。Exponentialが簡単で無難なら、Matérnは最も強力で無難に多く使われるモデルと言える。数式で現れる$K_{\nu}$は第1種変形ベッセル関数。
これで、数式をもとにセミバリオグラムをどう読むか見ていこう。その前に、次の数式を覚えておくと良いが、$\gamma$と$C$はトレードオフの関係にあり、$C$が共分散を意味するので、$\gamma$の値が高いということは、データ間の関係が低下するという意味になる。 $$ \operatorname{Var} Y = \gamma ( \mathbf{h} ) + C ( \mathbf{h} ) $$
一般的に、バリオグラムは$t$が大きくなるにつれて$\gamma (t)$も大きくなり、ある程度からはさらに増加しない形を描くことが多い。直感的に、これは距離が離れるにつれてデータ間の関連性が低下し、ある距離を超えると特に関係がなくなることを表している。
ナゲット
$$ \text{Nugget} := \gamma \left( 0^{+} \right) = \lim_{t \to 0+} \gamma (t) = \tau^{2} $$ 既知のモデルでは、$\tau^{2}$に該当する値として
- 理論的には$\operatorname{Var} Y = \gamma ( \mathbf{h} ) + C ( \mathbf{h} )$なので、$\mathbf{h} = 0$の時$C ( 0 ) = \operatorname{Var} Y$で、$\gamma ( 0 ) = 0$であるべきだが
- 実際のデータを扱うと、正確にデータ$\left| \mathbf{h} \right| = 0$の時は何の意味もなく、非常に近い点でも少しの差が出る。
このように、理論とは異なり生じるy切片をナゲットと呼ぶ。
シル
$$ \text{Sill} := \lim_{t \to \infty} \gamma (t) = \tau^{2} + \sigma^{2} $$ 既知のモデルでは、$\tau^{2} + \sigma^{2}$に該当する値として、$\gamma (t)$のシルと呼ばれる。モデルによっては理論的に収束しないかもしれないが、適切な許容値$0.05$を設けて「十分に天井に達したと思えば」その部分をシルと呼ぶことができる。特に、シルとナゲットの間の高さ$\sigma$を部分シルと呼ぶ。
レンジ
$\gamma (t)$が初めてシルに触れる地点までをレンジと呼ぶ。シルを求める際、許容値を設けた場合は特に有効レンジとも呼ばれる。
Banerjee. (2015). Hierarchical Modeling and Analysis for Spatial Data(2nd Edition): p24~29. ↩︎
https://juliaearth.github.io/GeoStats.jl/stable/variography/empirical.html#Variograms ↩︎