十分統計量
📂数理統計学十分統計量
定義
Ωをパラメータの集合としよう。サンプルXの統計量T:=T(X)の確率密度関数または確率質量関数f(t;θ)を集めたファミリー{f(t;θ):θ∈Θ}が
∀θ,Eθg(T)=0⟹∀θ,Pθ(g(T)=0)=1
を満たす場合、完全completeであると言い、T(X)を完全統計量complete statisticと呼ぶ。
説明
口頭で発音するとき、補助統計量の韓国語を使う人は誰もおらず、[アンシラリー スタティスティック]と同様に、通常完全統計量も英語の発音そのまま[コンプリート スタティスティック]と言う。
注意
注意すべき点は、完全であることが特定の確率分布ではなく、分布族、つまりすべてのθに対して{f(t;θ):θ∈Θ}を考えることであり、そのときTを完全統計量と呼ぶということである。より明確に要約すると、次のようになる。
- 完全なものは分布族{f(t;θ):θ∈Θ}である。
- 完全統計量自体はその分布族ではなく、統計量Tである。
しかし、要約を見るとgが登場しない。完全統計量の定義が掴みどころのない話に感じられる理由は、このようにgが何でありTが何であるかを実際には知ることができないためである。そこに「すべてのθ」という表現が句点を打っている。
直感的にわかる統計量
シンプルな直感でアプローチしてみよう。期待値がg(T)になるようにするという説明は一旦脇に置いて、単に二つの期待値Eθg1(T)とEθg2(T)が同じである状況を考えてみよう。これを積分形で表すと、
∫Rg1(t)f(t;θ)dt=Eθg1(T)=Eθg2(T)=∫Rg2(t)f(t;θ)dt
[ 注:実際の計算ではTは積分変数dtとして意味を持ち、その統計量の本質はf(t;θ)に組み込まれている。] しかしf(t;θ)は確率密度関数なのでf(t;θ)=0であろうが、それにもかかわらず上の等式が成り立つということは、おそらくg1とg2が同じという意味であろう。もちろんθに応じて変わる確率密度関数の形に合わせて新しいg1=g2を選択することで等式を満たすことはできるだろうが、これがすべてのθに対して常に成り立つならば、g1とg2には多くの選択肢がない。おそらくほとんどすべてのtで次のことが成り立つはずである。
g1(t)=g2(t)
言い換えれば、g1とg2はほぼ確実に同じ関数、つまり点数が少し足りない程度で全て同じである確率が100%であるということである。これを単なる数式で表すと、
Pθ(g1(T)=g2(T))=100%
もちろんこれはEθg1(T)=Eθg2(T)のときの話であり、
∀θ∈Θ,Eθg1(T)=Eθg2(T)⟹∀θ∈Θ,Pθ(g1(T)=g2(T))=100%
だ。再びgに戻ってg:=g2−g1とすると、今までとは少し違和感のあった完全統計量の定義が得られる。このような説明を省略していきなりgから始める理由は、この概念を表現するためにg1とg2が必ずしも必要ではないためである。[ 注:教科書によっては不偏推定量などと関連付けて説明することもあるが、これも完全統計量の定義自体には必要ない。]
∀θ,Eθ[g2(T)−g1(T)]=0⟹∀θ,Pθ([g2(T)−g1(T)]=0)=100%
もしTが完全統計量でない場合、上で簡単に述べたようにf(t;θ)に大きな問題があると推測できる。何らかのθに対して驚くべきほど変動する確率密度関数f(t;θ)を持つ統計量Tは、どう見ても非常識であると言えるだろう。
ここまでの議論を見ればわかるように、完全統計量は特に良い性質を示していない。むしろ、あまりにも当たり前で常識的だった。しかし、上記の提案であるθの中でたった一つでも例外があれば、Tはある種の当たり前で常識的な理論展開において完全に準備されていない統計量であると考えることができる。
定理
混乱したかもしれないg,T,θに関する内容を一行ずつ要約すると、次のようになる。
- g:正直、0になるはずなので、0以外は心配する必要がなく、とりあえずg(t)とする。
- T:一見、式から消えたように見えるが、実際にはf(t;θ)そのものである。
- ∀θ:たった一つの例外的なθも許さないという点で完全性completenessになる。
普遍的な完全性との関連性
少し難しい話だ。統計学にだけ関心があるなら、この部分は読み飛ばしても良い。読んで理解できたとしても、これは学界の定説ではなく、筆者の個人的な見解なので、あまり真剣に受け止めないでほしい。
数理統計ではない、普通の数学では完全性とは通常、距離空間で定義される完全性を指す。コーシー列が収束する点が元の空間に属するかどうかが数学で非常に重要であり、測度空間などの場では、コーシー列を明示的に定義せずに完全性について論じることもある。
p:x△?X⟹q:x∈X
しかし、完全性について語るとき、その詳細な定義がどうであれ、△?がどのような関係であれ、条件付き命題のqにはx∈Xに似た何かが来る。何が違っていようと、どれほど抽象化されていようと、私たちが関心を持っている何かが元の集合に属しているということが、普遍的な完全性の形なのである。
長い間、筆者は多くの学者にこのことについて質問し、ウィキペディアを含む様々な[^2] [^3]文書を探したが、統計量の完全性とその普遍的な完全性とは正確な関連がないと結論づけた。せめて、どんなθにも例外を設けないという点で、私たちが関心を持つすべてのθがパラメータの集合に入り、θ∈Θのような言葉を作って繋げるしかない。
数式的に似ているものとしては、測度論で語られる[シグマフィ