最小十分統計量
定義 1
$T \left( \mathbf{X} \right)$を十分統計量だとしよう。全ての別の十分統計量$T ' \left( \mathbf{X} \right)$に対して、$T \left( \mathbf{x} \right)$が$T ' \left( \mathbf{x} \right)$の関数として表される場合、$T \left( \mathbf{X} \right)$を最小十分統計量minimal Sufficient statisticと言う。
定理
$f \left( \mathbf{x} ; \theta \right)$がサンプル $\mathbf{X}$の確率密度関数または確率質量関数だとしよう。全ての実現$\mathbf{x} , \mathbf{y}$に対して、 $$ {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = c (\theta) \text{ is constant as function a of }\theta \iff T (\mathbf{x}) = T (\mathbf{y}) $$ を満たす$\mathbf{x}$の関数$T$が存在する場合、$T \left( \mathbf{X} \right)$は$\theta$に対する最小十分統計量である。
説明
定義での$T$が他の全ての$T '$の何かとして表されるという声明は、かなり数学的な声明である。$T '$が同様に十分統計量でありながら、何らかの$T$によって表されないということは、$T '$が$T$に比べてどこか不足していることを意味し、「全ての」$T '$に対して成り立つ必要があるという点では「最小」という表現が適切であることが分かる。
例
(十分統計量のわかりやすい例の続き)
$$ X_{1} , \cdots , X_{n} \sim U (0,\theta) \text{ with } f \left( x ; \theta \right) = \begin{cases} 1 & , \text{if } x \in (0,\theta) \\ 0 & , \text{otherwise} \end{cases} = {{ 1 } \over { \theta }} I_{(0,\theta)} (x) $$
最大パラメーター$\theta$の一様分布から得られたランダムサンプルを考えてみる。サンプルの最大値$\max_{k} X_{k} = X_{(n)}$は、$\theta$に対する十分統計量になり得た。直感的に見て、これ以上の十分統計量はなさそうだが、上記の定理に従って実際に確認してみよう。
指示関数の積: $$ \prod_{i=1}^{n} I_{(-\infty, \theta]} \left( x_{i} \right) = I_{(-\infty, \theta]} \left( \max_{i \in [n]} x_{i} \right) $$
$$ \begin{align*} \mathbf{x} :=& \left( x_{1} , \cdots , x_{n} \right) \\ \mathbf{y} :=& \left( y_{1} , \cdots , y_{n} \right) \end{align*} $$ 二つのデータ$\mathbf{x} , \mathbf{y}$に対する結合確率密度関数の比は指示関数の積に基づいて $$ \begin{align*} {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} =& {{ \prod_{k = 1}^{n} \theta^{-1} I_{(0,\theta)} \left( x_{k} \right) } \over { \prod_{k = 1}^{n} \theta^{-1} I_{(0,\theta)} \left( y_{k} \right) }} \\ =& {{ \theta^{-n} I_{(0,\theta)} \left( \max_{k} x_{k} \right) } \over { \theta^{-n} I_{(0,\theta)} \left( \max_{k} y_{k} \right) }} \\ =& {{ I_{(0,\theta)} \left( \max_{k} x_{k} \right) } \over { I_{(0,\theta)} \left( \max_{k} y_{k} \right) }} \end{align*} $$ であり、これは$\max_{k} x_{k} = \max_{k} y_{k}$であれば$\theta$に関係なく常に同じ値であり、その場合に限って同じ値である。従って、$\max_{k} x_{k}$は$\theta$に対する十分統計量であるだけでなく、最小十分統計量であることが保証される。
証明
便宜上、$f \left( \mathbf{x} ; \theta \right) = 0$の場合は考慮しなくても良いとする。ここからは、$\mathbf{X}$の値域を$\mathcal{X}$とし、全ての$\mathbf{x} \in \mathcal{X}$と$\theta$に対して、$f \left( \mathbf{x} ; \theta \right) \gneq 0$だとする。
Part 1. 十分性
$T$に対する$\mathcal{X}$の像を$\mathcal{T} := T \left( \mathcal{X} \right)$として表し、全ての$t > 0$に対して、部分集合 $$ A_{t} := \left\{ \mathbf{x} \in \mathcal{X} : T (\mathbf{x}) = t \right\} \subset \mathcal{T} $$ を定義することにより、集合$\mathcal{T}$の分割を考えることができる。各$t$に対して、要素$\mathbf{x}_{t} \in A_{t}$を一つ選び、$\mathbf{x}_{T(\mathbf{x})}$が各$\forall \mathbf{x} \in \mathcal{X}$に対応する$\mathbf{x}_{t}$として表されると、$\mathbf{x} \in A_{t} \iff \mathbf{x}_{t} \in A_{t}$だから$T \left( \mathbf{x} \right) = T \left( \mathbf{x}_{T(\mathbf{x})} \right)$だ。前提から $$ {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = c (\theta) \text{ is constant as function a of }\theta \impliedby T (\mathbf{x}) = T (\mathbf{y}) $$ なので $$ h \left( \mathbf{x} \right) := {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{x}_{T(\mathbf{x})} ; \theta \right) }} $$ として定義された関数$h : \mathcal{X} \to \mathbb{R}$は、$\theta$に対しては定数関数である。そこで、関数$g : \mathcal{T} \to \mathbb{R}$を$g(t ; \theta) := f \left( \mathbf{x}_{t} ; \theta \right)$として定義すれば、次が成立する。 $$ \begin{align*} & f \left( \mathbf{x} ; \theta \right) \\ =& f \left( \mathbf{x}_{T \left( \mathbf{x} \right)} ; \theta \right) {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{x}_{T \left( \mathbf{x} \right)} ; \theta \right) }} \\ =& g \left( T \left( \mathbf{x} \right) ; \theta \right) \cdot h \left( \mathbf{x} \right) \end{align*} $$
ネイマン分解定理: ランダムサンプル $X_{1} , \cdots , X_{n}$がパラメーター$\theta \in \Theta$に対して同じ確率質量/密度関数$f \left( x ; \theta \right)$を持つとする。統計量$Y = u_{1} \left( X_{1} , \cdots , X_{n} \right)$が$\theta$の十分統計量であることは、以下を満たす非負の二つの関数$k_{1} , k_{2} \ge 0$が存在することを意味する。 $$ f \left( x_{1} ; \theta \right) \cdots f \left( x_{n} ; \theta \right) = k_{1} \left[ u_{1} \left( x_{1} , \cdots , x_{n} \right) ; \theta \right] k_{2} \left( x_{1} , \cdots , x_{n} \right) $$ ただし、$k_{2}$は$\theta$に依存してはならない。
ネイマン分解定理により、$T$は$\theta$に対する十分統計量である。
Part 2. 最小性
$T$以外の十分統計量$T'$を考えると、ネイマン分解定理により、 $$ f \left( \mathbf{x} ; \theta \right) = g' \left( T ' \left( \mathbf{x} \right) ; \theta \right) \cdot h’ \left( \mathbf{x} \right) $$ を満たす二つの関数$g'$と$h '$が存在する。$\mathbf{x}$と$\mathbf{y}$が$T ' \left( \mathbf{x} \right) = T ' \left( \mathbf{y} \right)$を満たす任意の二つの実現について、 $$ {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = {{ g' \left( T’ (\mathbf{x}) ; \theta \right) h’ \left( \mathbf{x} \right) } \over { g' \left( T’ (\mathbf{y}) ; \theta \right) h’ \left( \mathbf{x} \right) }} = {{ h’ (\mathbf{x}) } \over { h’ (\mathbf{y}) }} $$ は$\theta$に依存しないため、前提 $$ {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = c (\theta) \text{ is constant as function a of }\theta \implies T (\mathbf{x}) = T (\mathbf{y}) $$ により$T (\mathbf{x}) = T (\mathbf{y})$である。すなわち $$ T’ (\mathbf{x}) = T’ (\mathbf{y}) \implies T (\mathbf{x}) = T (\mathbf{y}) $$ であり、ある関数$\lambda$に対して $$ T (\mathbf{x}) = \lambda \left( T’ (\mathbf{x}) \right) $$ である。従って、$T$は$T'$の関数であり、$T$は最小十分統計量である。
■
Casella. (2001). Statistical Inference(2nd Edition): p280. ↩︎