セミバリオグラムのモデル
概要
空間統計分析では、空間過程がアイソトロピックで、セミバリオグラムがを満たす場合、は複雑な行列の形ではなく、1次元スカラー関数、即ちとして表現できる。これはポイントリファレンスデータ間の相関関係が折れ線グラフで描けることを意味する。
モデル 1
(バリオグラムの等方性の投稿に続いて)
バリオグラムのグラフは、データの特性に応じていくつかの型に現れる。
これらをどう解釈するかはともかく、このような図を描く方法は、x軸をデータ間の距離、y軸をにすれば良い。そもそもこのように図で表されること自体、を「バリオグラム」と呼ぶのが自然な命名だと確認できる。
実際のデータでは、特定の長さに正確に対応するデータペアが多くないかもしれないため、一定の区分をパーティションとして分けて、経験的に求めることができる。上の図はジュリアでバリオグラムを描いた例で、に従ってセミバリオグラムだけでなく、そのクラスの頻度も表示されている2。
数式
バリオグラムをフィッティングするためのモデルとして、いくつかの関数が知られている。
ここでは、いくつかの重要なモデルについて簡単にコメントしていく:
- Linear:距離に比例して影響力が決まるモデルで、一見意味があるように見えるが、コバリオグラムとの解釈が難しいため、実際には使用されない。
- Spherical:一定の距離以上で影響力が完全に消えるモデルで、多くのデータで合理的な選択となる。
- Exponential:距離が遠くなるにつれて影響が指数的に減少する、最もシンプルで納得しやすいモデル 。学部生レベルのプロジェクトでは、これだけで十分。
- Matérn:y切片に相当するとグラフのスケールを決めるのほか、形状自体に影響を与えるからまでが含まれ、上記のモデルの中では最も多くのデータに使用できる。Exponentialが簡単で無難なら、Matérnは最も強力で無難に多く使われるモデルと言える。数式で現れるは第1種変形ベッセル関数。
これで、数式をもとにセミバリオグラムをどう読むか見ていこう。その前に、次の数式を覚えておくと良いが、とはトレードオフの関係にあり、が共分散を意味するので、の値が高いということは、データ間の関係が低下するという意味になる。
一般的に、バリオグラムはが大きくなるにつれても大きくなり、ある程度からはさらに増加しない形を描くことが多い。直感的に、これは距離が離れるにつれてデータ間の関連性が低下し、ある距離を超えると特に関係がなくなることを表している。
ナゲット
既知のモデルでは、に該当する値として
- 理論的にはなので、の時で、であるべきだが
- 実際のデータを扱うと、正確にデータの時は何の意味もなく、非常に近い点でも少しの差が出る。
このように、理論とは異なり生じるy切片をナゲットと呼ぶ。
シル
既知のモデルでは、に該当する値として、のシルと呼ばれる。モデルによっては理論的に収束しないかもしれないが、適切な許容値を設けて「十分に天井に達したと思えば」その部分をシルと呼ぶことができる。特に、シルとナゲットの間の高さを部分シルと呼ぶ。
レンジ
が初めてシルに触れる地点までをレンジと呼ぶ。シルを求める際、許容値を設けた場合は特に有効レンジとも呼ばれる。
Banerjee. (2015). Hierarchical Modeling and Analysis for Spatial Data(2nd Edition): p24~29. ↩︎
https://juliaearth.github.io/GeoStats.jl/stable/variography/empirical.html#Variograms ↩︎