logo

最小十分統計量 📂数理統計学

最小十分統計量

定義 1

T(X)T \left( \mathbf{X} \right)十分統計量だとしよう。全ての別の十分統計量T(X)T ' \left( \mathbf{X} \right)に対して、T(x)T \left( \mathbf{x} \right)T(x)T ' \left( \mathbf{x} \right)の関数として表される場合、T(X)T \left( \mathbf{X} \right)最小十分統計量minimal Sufficient statisticと言う。

定理

f(x;θ)f \left( \mathbf{x} ; \theta \right)サンプル X\mathbf{X}の確率密度関数または確率質量関数だとしよう。全ての実現x,y\mathbf{x} , \mathbf{y}に対して、 f(x;θ)f(y;θ)=c(θ) is constant as function a of θ    T(x)=T(y) {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = c (\theta) \text{ is constant as function a of }\theta \iff T (\mathbf{x}) = T (\mathbf{y}) を満たすx\mathbf{x}の関数TTが存在する場合、T(X)T \left( \mathbf{X} \right)θ\thetaに対する最小十分統計量である。

説明

定義でのTTが他の全てのTT 'の何かとして表されるという声明は、かなり数学的な声明である。TT 'が同様に十分統計量でありながら、何らかのTTによって表されないということは、TT 'TTに比べてどこか不足していることを意味し、「全ての」TT 'に対して成り立つ必要があるという点では「最小」という表現が適切であることが分かる。

(十分統計量のわかりやすい例の続き)

X1,,XnU(0,θ) with f(x;θ)={1,if x(0,θ)0,otherwise=1θI(0,θ)(x) X_{1} , \cdots , X_{n} \sim U (0,\theta) \text{ with } f \left( x ; \theta \right) = \begin{cases} 1 & , \text{if } x \in (0,\theta) \\ 0 & , \text{otherwise} \end{cases} = {{ 1 } \over { \theta }} I_{(0,\theta)} (x)

最大パラメーターθ\theta一様分布から得られたランダムサンプルを考えてみる。サンプルの最大値maxkXk=X(n)\max_{k} X_{k} = X_{(n)}は、θ\thetaに対する十分統計量になり得た。直感的に見て、これ以上の十分統計量はなさそうだが、上記の定理に従って実際に確認してみよう。

指示関数の積: i=1nI(,θ](xi)=I(,θ](maxi[n]xi) \prod_{i=1}^{n} I_{(-\infty, \theta]} \left( x_{i} \right) = I_{(-\infty, \theta]} \left( \max_{i \in [n]} x_{i} \right)

x:=(x1,,xn)y:=(y1,,yn) \begin{align*} \mathbf{x} :=& \left( x_{1} , \cdots , x_{n} \right) \\ \mathbf{y} :=& \left( y_{1} , \cdots , y_{n} \right) \end{align*} 二つのデータx,y\mathbf{x} , \mathbf{y}に対する結合確率密度関数の比は指示関数の積に基づいて f(x;θ)f(y;θ)=k=1nθ1I(0,θ)(xk)k=1nθ1I(0,θ)(yk)=θnI(0,θ)(maxkxk)θnI(0,θ)(maxkyk)=I(0,θ)(maxkxk)I(0,θ)(maxkyk) \begin{align*} {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} =& {{ \prod_{k = 1}^{n} \theta^{-1} I_{(0,\theta)} \left( x_{k} \right) } \over { \prod_{k = 1}^{n} \theta^{-1} I_{(0,\theta)} \left( y_{k} \right) }} \\ =& {{ \theta^{-n} I_{(0,\theta)} \left( \max_{k} x_{k} \right) } \over { \theta^{-n} I_{(0,\theta)} \left( \max_{k} y_{k} \right) }} \\ =& {{ I_{(0,\theta)} \left( \max_{k} x_{k} \right) } \over { I_{(0,\theta)} \left( \max_{k} y_{k} \right) }} \end{align*} であり、これはmaxkxk=maxkyk\max_{k} x_{k} = \max_{k} y_{k}であればθ\thetaに関係なく常に同じ値であり、その場合に限って同じ値である。従って、maxkxk\max_{k} x_{k}θ\thetaに対する十分統計量であるだけでなく、最小十分統計量であることが保証される。

証明

便宜上、f(x;θ)=0f \left( \mathbf{x} ; \theta \right) = 0の場合は考慮しなくても良いとする。ここからは、X\mathbf{X}値域X\mathcal{X}とし、全てのxX\mathbf{x} \in \mathcal{X}θ\thetaに対して、f(x;θ)0f \left( \mathbf{x} ; \theta \right) \gneq 0だとする。

Part 1. 十分性

TTに対するX\mathcal{X}T:=T(X)\mathcal{T} := T \left( \mathcal{X} \right)として表し、全てのt>0t > 0に対して、部分集合 At:={xX:T(x)=t}T A_{t} := \left\{ \mathbf{x} \in \mathcal{X} : T (\mathbf{x}) = t \right\} \subset \mathcal{T} を定義することにより、集合T\mathcal{T}分割を考えることができる。各ttに対して、要素xtAt\mathbf{x}_{t} \in A_{t}を一つ選び、xT(x)\mathbf{x}_{T(\mathbf{x})}が各xX\forall \mathbf{x} \in \mathcal{X}に対応するxt\mathbf{x}_{t}として表されると、xAt    xtAt\mathbf{x} \in A_{t} \iff \mathbf{x}_{t} \in A_{t}だからT(x)=T(xT(x))T \left( \mathbf{x} \right) = T \left( \mathbf{x}_{T(\mathbf{x})} \right)だ。前提から f(x;θ)f(y;θ)=c(θ) is constant as function a of θ    T(x)=T(y) {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = c (\theta) \text{ is constant as function a of }\theta \impliedby T (\mathbf{x}) = T (\mathbf{y}) なので h(x):=f(x;θ)f(xT(x);θ) h \left( \mathbf{x} \right) := {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{x}_{T(\mathbf{x})} ; \theta \right) }} として定義された関数h:XRh : \mathcal{X} \to \mathbb{R}は、θ\thetaに対しては定数関数である。そこで、関数g:TRg : \mathcal{T} \to \mathbb{R}g(t;θ):=f(xt;θ)g(t ; \theta) := f \left( \mathbf{x}_{t} ; \theta \right)として定義すれば、次が成立する。 f(x;θ)=f(xT(x);θ)f(x;θ)f(xT(x);θ)=g(T(x);θ)h(x) \begin{align*} & f \left( \mathbf{x} ; \theta \right) \\ =& f \left( \mathbf{x}_{T \left( \mathbf{x} \right)} ; \theta \right) {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{x}_{T \left( \mathbf{x} \right)} ; \theta \right) }} \\ =& g \left( T \left( \mathbf{x} \right) ; \theta \right) \cdot h \left( \mathbf{x} \right) \end{align*}

ネイマン分解定理: ランダムサンプル X1,,XnX_{1} , \cdots , X_{n}がパラメーターθΘ\theta \in \Thetaに対して同じ確率質量/密度関数f(x;θ)f \left( x ; \theta \right)を持つとする。統計量Y=u1(X1,,Xn)Y = u_{1} \left( X_{1} , \cdots , X_{n} \right)θ\theta十分統計量であることは、以下を満たす非負の二つの関数k1,k20k_{1} , k_{2} \ge 0が存在することを意味する。 f(x1;θ)f(xn;θ)=k1[u1(x1,,xn);θ]k2(x1,,xn) f \left( x_{1} ; \theta \right) \cdots f \left( x_{n} ; \theta \right) = k_{1} \left[ u_{1} \left( x_{1} , \cdots , x_{n} \right) ; \theta \right] k_{2} \left( x_{1} , \cdots , x_{n} \right) ただし、k2k_{2}θ\thetaに依存してはならない。

ネイマン分解定理により、TTθ\thetaに対する十分統計量である。


Part 2. 最小性

TT以外の十分統計量TT'を考えると、ネイマン分解定理により、 f(x;θ)=g(T(x);θ)h(x) f \left( \mathbf{x} ; \theta \right) = g' \left( T ' \left( \mathbf{x} \right) ; \theta \right) \cdot h’ \left( \mathbf{x} \right) を満たす二つの関数gg'hh 'が存在する。x\mathbf{x}y\mathbf{y}T(x)=T(y)T ' \left( \mathbf{x} \right) = T ' \left( \mathbf{y} \right)を満たす任意の二つの実現について、 f(x;θ)f(y;θ)=g(T(x);θ)h(x)g(T(y);θ)h(x)=h(x)h(y) {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = {{ g' \left( T’ (\mathbf{x}) ; \theta \right) h’ \left( \mathbf{x} \right) } \over { g' \left( T’ (\mathbf{y}) ; \theta \right) h’ \left( \mathbf{x} \right) }} = {{ h’ (\mathbf{x}) } \over { h’ (\mathbf{y}) }} θ\thetaに依存しないため、前提 f(x;θ)f(y;θ)=c(θ) is constant as function a of θ    T(x)=T(y) {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = c (\theta) \text{ is constant as function a of }\theta \implies T (\mathbf{x}) = T (\mathbf{y}) によりT(x)=T(y)T (\mathbf{x}) = T (\mathbf{y})である。すなわち T(x)=T(y)    T(x)=T(y) T’ (\mathbf{x}) = T’ (\mathbf{y}) \implies T (\mathbf{x}) = T (\mathbf{y}) であり、ある関数λ\lambdaに対して T(x)=λ(T(x)) T (\mathbf{x}) = \lambda \left( T’ (\mathbf{x}) \right) である。従って、TTTT'の関数であり、TTは最小十分統計量である。


  1. Casella. (2001). Statistical Inference(2nd Edition): p280. ↩︎