logo

十分統計量 📂数理統計学

十分統計量

定義

数式的な定義 1

パラメータθΘ\theta \in \Thetaに対するランダムサンプルX1,,XnX_{1} , \cdots , X_{n}の確率質量/密度関数をf(x;θ)f(x;\theta)統計量Y1:=u1(X1,,Xn)Y_{1} := u_{1} \left( X_{1} , \cdots , X_{n} \right)の確率質量/密度関数をfY1(y1;θ)f_{Y_{1}} \left( y_{1}; \theta \right)とする。

θΘ\theta \in \Thetaに依存しないH(x1,,xn)H \left( x_{1} , \cdots , x_{n} \right)に対して f(x1;θ)f(xn;θ)fY1(u1(x1,,xn);θ)=H(x1,,xn) {{ f \left( x_{1} ; \theta \right) \cdots f \left( x_{n} ; \theta \right) } \over { f_{Y_{1}} \left( u_{1} \left( x_{1} , \cdots, x_{n} \right) ; \theta \right) }} = H \left( x_{1} , \cdots , x_{n} \right) であれば、Y1Y_{1}θ\thetaに対する十分統計量という。

一般的な定義 2

統計量T(X)T(\mathbf{X})が、与えられたサンプルX\mathbf{X}条件付き確率分布がパラメータθ\thetaに依存しない場合、T(X)T(\mathbf{X})θ\thetaに対する十分統計量という。

説明

定義の数式が意味するのは、直感的に見ると、分子と分母でθ\thetaがキャンセルされること―つまり十分統計量Y1Y_{1}が、ランダムサンプルX1,,XnX_{1} , \cdots , X_{n}の情報を正確に保持しているという意味になるだろう。十分統計量の「十分」とは、θ\thetaに関する情報が「十分」に与えられていると受け取れば良く、十分統計量を除いた後は、θ\thetaに関する情報が全く残ってはいけない。

十分統計量を理解するために、以下の定理を用いよう。

ネイマン分解定理: ランダムサンプルX1,,XnX_{1} , \cdots , X_{n}が、パラメータθΘ\theta \in \Thetaに対して同じ確率質量/密度関数f(x;θ)f \left( x ; \theta \right)を持つとする。統計量Y=u1(X1,,Xn)Y = u_{1} \left( X_{1} , \cdots , X_{n} \right)θ\theta十分統計量であるためには、次を満たす非負の二つの関数k1,k20k_{1} , k_{2} \ge 0が存在することである。 f(x1;θ)f(xn;θ)=k1[u1(x1,,xn);θ]k2(x1,,xn) f \left( x_{1} ; \theta \right) \cdots f \left( x_{n} ; \theta \right) = k_{1} \left[ u_{1} \left( x_{1} , \cdots , x_{n} \right) ; \theta \right] k_{2} \left( x_{1} , \cdots , x_{n} \right) ただし、k2k_{2}θ\thetaに依存してはならない。

響かない例

X1,,XnN(μ,σ2) X_{1} , \cdots , X_{n} \sim N \left( \mu , \sigma^{2} \right)

経験的に、十分統計量は、なぜそんなものを計算するのか、理解することから始める必要がある。典型的に響かない例として、正規分布N(μ,σ2)N \left( \mu , \sigma^{2} \right)の母平均μ\muに対する十分統計量を見ることだ。分解定理によれば、μ\muの十分統計量は k=1nf(xk;μ)=k=1n1σ2πexp((xiμ)22σ2)=(1σ2π)nexp(k=1n(xiμ)22σ2)=(1σ2π)nexp(k=1nxi22σ2)exp(k=1n(2xiμ2)2σ2)=(1σ2π)nexp(k=1nxi22σ2)exp(1σ2k=1nxi+n(μ/σ)22 )=k2(x1,,xn)k1[u1(x1,,xn);μ] \begin{align*} \prod_{k=1}^{n} f \left( x_{k} ; \mu \right) =& \prod_{k=1}^{n} {{ 1 } \over { \sigma \sqrt{2 \pi} }} \exp \left( - {{ \left( x_{i} - \mu \right)^{2} } \over { 2 \sigma^{2} }} \right) \\ =& \left( {{ 1 } \over { \sigma \sqrt{2 \pi} }} \right)^{n} \exp \left( - \sum_{k=1}^{n} {{ \left( x_{i} - \mu \right)^{2} } \over { 2 \sigma^{2} }} \right) \\ =& \left( {{ 1 } \over { \sigma \sqrt{2 \pi} }} \right)^{n} \exp \left( - \sum_{k=1}^{n} {{ x_{i}^{2} } \over { 2 \sigma^{2} }} \right) \exp \left( - \sum_{k=1}^{n} {{ \left( 2 x_{i} - \mu^{2} \right) } \over { 2 \sigma^{2} }} \right) \\ =& \left( {{ 1 } \over { \sigma \sqrt{2 \pi} }} \right)^{n} \exp \left( - \sum_{k=1}^{n} {{ x_{i}^{2} } \over { 2 \sigma^{2} }} \right) \cdot \exp \left( - {{ 1 } \over { \sigma^{2} }} \sum_{k=1}^{n} x_{i} + {{ n(\mu/\sigma)^{2} } \over { 2 \ }} \right) \\ =& k_{2} \left( x_{1} , \cdots , x_{n} \right) \cdot k_{1} \left[ u_{1} \left( x_{1} , \cdots , x_{n} \right) ; \mu \right] \end{align*} であり、サンプル和k=1nXk\sum_{k=1}^{n} X_{k}であろうと、分子分母にnnを掛けてサンプル平均X\overline{X}になろうと、関係ない。直感に従って、μ\muの十分統計量として、その不偏推定量であり、一致推定量であり、最尤推定量でもあるサンプル平均が出てきたのは良い。数式的には理解できる。しかし、それが一体何を意味するのか、感じることは難しいだろう。

響く例

X1,,XnU(0,θ) with f(x;θ)={1,if x(0,θ)0,otherwise=1θI(0,θ)(x) X_{1} , \cdots , X_{n} \sim U (0,\theta) \text{ with } f \left( x ; \theta \right) = \begin{cases} 1 & , \text{if } x \in (0,\theta) \\ 0 & , \text{otherwise} \end{cases} = {{ 1 } \over { \theta }} I_{(0,\theta)} (x)

例えば、最大値のパラメータがθ\thetaである一様分布から得られたランダムサンプルを考えてみよう。実際の実現[2.31.21.70.11.1] \begin{bmatrix}2.3 \\ 1.2 \\ 1.7 \\ 0.1 \\ 1.1\end{bmatrix} であり、これ以上のサンプルを得られない場合、一様分布U(a,b)U(a,b)の母平均がb+a2{{ b+a } \over { 2 }}であるため、次のような推定量を考えることができる。 θ^+02=kxkn    θ^=?2kxkn {{ \hat{\theta} + 0 } \over { 2 }} = {{ \sum_{k} x_{k} } \over { n }} \implies \hat{\theta} \overset{?}{=} {{ 2 \sum_{k} x_{k} } \over { n }} 数理統計学的にそんなに悪くない推測のようだ。実際、このデータで計算されたサンプル平均の22倍は2.162.16で、かなりもっともらしい。しかし、2.32.3がサンプルにあることを考えると、θ=2.16\theta = 2.16であるはずがない。どう考えても、θ\theta2.32.3以上でなければならず、直感的に見て、θ\thetaに対する合理的な推定は、単純にθ^=2.3\hat{\theta} = 2.3になる。今のサンプルを見たとき、2.32.3より大きいと考える理由が全くないからだ。さあ、実際に十分統計量を探してみよう。

指示関数の積: i=1nI(,θ](xi)=I(,θ](maxi[n]xi) \prod_{i=1}^{n} I_{(-\infty, \theta]} \left( x_{i} \right) = I_{(-\infty, \theta]} \left( \max_{i \in [n]} x_{i} \right)

この補題と分解定理により考えると、θ\thetaに対する十分統計量は k=1nf(xk;μ)=k=1n1θI(0,θ)(xk)=1θnI(0,θ)(maxxk)1=k1[u1(x1,,xn);θ]k2(x1,,xn) \begin{align*} \prod_{k=1}^{n} f \left( x_{k} ; \mu \right) =& \prod_{k=1}^{n} {{ 1 } \over { \theta }} I_{(0,\theta)} \left( x_{k} \right) \\ = & {{ 1 } \over { \theta^{n} }} I_{(0,\theta)} \left( \max x_{k} \right) \cdot 1 \\ = & k_{1} \left[ u_{1} \left( x_{1} , \cdots , x_{n} \right) ; \theta \right] k_{2} \left( x_{1} , \cdots , x_{n} \right) \end{align*} であるため、サンプルの最大値maxkXk=X(n)\max_{k} X_{k} = X_{(n)}が十分となる。これが意味するのは、θ\thetaに関する情報を考えるとき、他のサンプルは必要なく、maxkXk\max_{k} X_{k}だけを考えれば「十分」であるということだ。

このアイデアは、データをたくさん引き出してパラメータを推定し、それをどこかに近似する考え方とは全く異なる。これは、直感的な推測に対して、数学と形式でアプローチする統計的推論であり、これを通じて、統計学のさらに深い世界に入れる。

最小十分統計量

響く例で、maxkXk\max_{k} X_{k}θ\thetaに対する十分統計量であることを直感と照らし合わせて確認した。これ以上の十分統計量はないと見えるが、最小十分統計量に関する議論がその答えとなるだろう。


  1. Hogg et al. (2013). Introduction to Mathematical Statistics(7th Edition): p391. ↩︎

  2. Casella. (2001). Statistical Inference(2nd Edition): p272. ↩︎