logo

十分統計量 📂数理統計学

十分統計量

定義 1

Ω\Omegaをパラメータの集合としよう。サンプルX\mathbf{X}統計量T:=T(X)T := T \left( \mathbf{X} \right)確率密度関数または確率質量関数f(t;θ)f \left( t ; \theta \right)を集めたファミリー{f(t;θ):θΘ}\left\{ f \left( t ; \theta \right) : \theta \in \Theta \right\}θ,Eθg(T)=0    θ,Pθ(g(T)=0)=1 \forall \theta, E_{\theta} g (T) = 0 \implies \forall \theta, P_{\theta} \left( g(T) = 0 \right) = 1 を満たす場合、完全completeであると言い、T(X)T \left( \mathbf{X} \right)完全統計量complete statisticと呼ぶ。

説明

口頭で発音するとき、補助統計量の韓国語を使う人は誰もおらず、[アンシラリー スタティスティック]と同様に、通常完全統計量も英語の発音そのまま[コンプリート スタティスティック]と言う。

注意

注意すべき点は、完全であることが特定の確率分布ではなく、分布族、つまりすべてのθ\thetaに対して{f(t;θ):θΘ}\left\{ f \left( t ; \theta \right) : \theta \in \Theta \right\}を考えることであり、そのときTTを完全統計量と呼ぶということである。より明確に要約すると、次のようになる。

  • 完全なものは分布族{f(t;θ):θΘ}\left\{ f \left( t ; \theta \right) : \theta \in \Theta \right\}である。
  • 完全統計量自体はその分布族ではなく、統計量TTである。

しかし、要約を見るとggが登場しない。完全統計量の定義が掴みどころのない話に感じられる理由は、このようにggが何でありTTが何であるかを実際には知ることができないためである。そこに「すべてのθ\theta」という表現が句点を打っている。

直感的にわかる統計量

シンプルな直感でアプローチしてみよう。期待値がg(T)g(T)になるようにするという説明は一旦脇に置いて、単に二つの期待値Eθg1(T)E_{\theta} g_{1} (T)Eθg2(T)E_{\theta} g_{2} (T)が同じである状況を考えてみよう。これを積分形で表すと、 Rg1(t)f(t;θ)dt=Eθg1(T)=Eθg2(T)=Rg2(t)f(t;θ)dt \int_{\mathbb{R}} g_{1} \left( t \right) f \left( t ; \theta \right) d t = E_{\theta} g_{1} (T) = E_{\theta} g_{2} (T) = \int_{\mathbb{R}} g_{2} \left( t \right) f \left( t ; \theta \right) d t [ :実際の計算ではTTは積分変数dtdtとして意味を持ち、その統計量の本質はf(t;θ)f \left( t ; \theta \right)に組み込まれている。] しかしf(t;θ)f \left( t ; \theta \right)確率密度関数なのでf(t;θ)0f \left( t ; \theta \right) \ne 0であろうが、それにもかかわらず上の等式が成り立つということは、おそらくg1g_{1}g2g_{2}が同じという意味であろう。もちろんθ\thetaに応じて変わる確率密度関数の形に合わせて新しいg1g2g_{1} \ne g_{2}を選択することで等式を満たすことはできるだろうが、これがすべてのθ\thetaに対して常に成り立つならば、g1g_{1}g2g_{2}には多くの選択肢がない。おそらくほとんどすべてのtt次のことが成り立つはずである。 g1(t)=g2(t) g_{1} \left( t \right) = g_{2} \left( t \right) 言い換えれば、g1g_{1}g2g_{2}ほぼ確実に同じ関数、つまり点数が少し足りない程度で全て同じである確率が100%100\% であるということである。これを単なる数式で表すと、 Pθ(g1(T)=g2(T))=100% P_{\theta} \left( g_{1} \left( T \right) = g_{2} \left( T \right) \right) = 100 \% もちろんこれはEθg1(T)=Eθg2(T)E_{\theta} g_{1} (T) = E_{\theta} g_{2} (T)のときの話であり、 θΘ,Eθg1(T)=Eθg2(T)    θΘ,Pθ(g1(T)=g2(T))=100% \forall \theta \in \Theta, E_{\theta} g_{1} (T) = E_{\theta} g_{2} (T) \implies \forall \theta \in \Theta , P_{\theta} \left( g_{1} \left( T \right) = g_{2} \left( T \right) \right) = 100 \% だ。再びggに戻ってg:=g2g1g := g_{2} - g_{1}とすると、今までとは少し違和感のあった完全統計量の定義が得られる。このような説明を省略していきなりggから始める理由は、この概念を表現するためにg1g_{1}g2g_{2}が必ずしも必要ではないためである。[ :教科書によっては不偏推定量などと関連付けて説明することもあるが、これも完全統計量の定義自体には必要ない。] θ,Eθ[g2(T)g1(T)]=0    θ,Pθ([g2(T)g1(T)]=0)=100% \forall \theta, E_{\theta} \left[ g_{2} (T) - g_{1} (T) \right] = 0 \implies \forall \theta, P_{\theta} \left( \left[ g_{2} (T) - g_{1} (T) \right] = 0 \right) = 100 \%

もしTTが完全統計量でない場合、上で簡単に述べたようにf(t;θ)f \left( t ; \theta \right)に大きな問題があると推測できる。何らかのθ\thetaに対して驚くべきほど変動する確率密度関数f(t;θ)f \left( t ; \theta \right)を持つ統計量TTは、どう見ても非常識であると言えるだろう。

ここまでの議論を見ればわかるように、完全統計量は特に良い性質を示していない。むしろ、あまりにも当たり前で常識的だった。しかし、上記の提案であるθ\thetaの中でたった一つでも例外があれば、TTはある種の当たり前で常識的な理論展開において完全に準備されていない統計量であると考えることができる。

定理

混乱したかもしれないg,T,θg, T, \thetaに関する内容を一行ずつ要約すると、次のようになる。

  • gg:正直、00になるはずなので、00以外は心配する必要がなく、とりあえずg(t)g(t)とする。
  • TT:一見、式から消えたように見えるが、実際にはf(t;θ)f \left( t ; \theta \right)そのものである。
  • θ\forall \theta:たった一つの例外的なθ\thetaも許さないという点で完全性completenessになる。

普遍的な完全性との関連性

少し難しい話だ。統計学にだけ関心があるなら、この部分は読み飛ばしても良い。読んで理解できたとしても、これは学界の定説ではなく、筆者の個人的な見解なので、あまり真剣に受け止めないでほしい。

数理統計ではない、普通の数学では完全性とは通常、距離空間で定義される完全性を指す。コーシー列が収束する点が元の空間に属するかどうかが数学で非常に重要であり、測度空間などの場では、コーシー列を明示的に定義せずに完全性について論じることもある。 p:x?X    q:xX p: x \overset{?}{\triangle} X \implies q: x \in X しかし、完全性について語るとき、その詳細な定義がどうであれ、?\overset{?}{\triangle}がどのような関係であれ、条件付き命題qqにはxXx \in Xに似た何かが来る。何が違っていようと、どれほど抽象化されていようと、私たちが関心を持っている何かが元の集合に属しているということが、普遍的な完全性の形なのである。

長い間、筆者は多くの学者にこのことについて質問し、ウィキペディアを含む様々な[^2] [^3]文書を探したが、統計量の完全性とその普遍的な完全性とは正確な関連がないと結論づけた。せめて、どんなθ\thetaにも例外を設けないという点で、私たちが関心を持つすべてのθ\thetaがパラメータの集合に入り、θΘ\theta \in \Thetaのような言葉を作って繋げるしかない。

数式的に似ているものとしては、測度論で語られる[シグマフィ


  1. Casella. (2001). Statistical Inference(2nd Edition): p285. ↩︎