最小十分統計量

定義 ¹

$T \left( \mathbf{X} \right)$ を十分統計量だとしよう。全ての別の十分統計量 $T ' \left( \mathbf{X} \right)$ に対して、 $T \left( \mathbf{x} \right)$ が $T ' \left( \mathbf{x} \right)$ の関数として表される場合、 $T \left( \mathbf{X} \right)$ を最小十分統計量^{minimal Sufficient statistic}と言う。

定理

$f \left( \mathbf{x} ; \theta \right)$ がサンプル $\mathbf{X}$ の確率密度関数または確率質量関数だとしよう。全ての実現 $\mathbf{x} , \mathbf{y}$ に対して、 ${{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = c (\theta) \text{ is constant as function a of }\theta \iff T (\mathbf{x}) = T (\mathbf{y})$ を満たす $\mathbf{x}$ の関数 $T$ が存在する場合、 $T \left( \mathbf{X} \right)$ は $\theta$ に対する最小十分統計量である。

説明

定義での $T$ が他の全ての $T '$ の何かとして表されるという声明は、かなり数学的な声明である。 $T '$ が同様に十分統計量でありながら、何らかの $T$ によって表されないということは、 $T '$ が $T$ に比べてどこか不足していることを意味し、「全ての」 $T '$ に対して成り立つ必要があるという点では「最小」という表現が適切であることが分かる。

例

(十分統計量のわかりやすい例の続き)

$X_{1} , \cdots , X_{n} \sim U (0,\theta) \text{ with } f \left( x ; \theta \right) = \begin{cases} 1 & , \text{if } x \in (0,\theta) \\ 0 & , \text{otherwise} \end{cases} = {{ 1 } \over { \theta }} I_{(0,\theta)} (x)$

最大パラメーター $\theta$ の一様分布から得られたランダムサンプルを考えてみる。サンプルの最大値 $\max_{k} X_{k} = X_{(n)}$ は、 $\theta$ に対する十分統計量になり得た。直感的に見て、これ以上の十分統計量はなさそうだが、上記の定理に従って実際に確認してみよう。

指示関数の積: $\prod_{i=1}^{n} I_{(-\infty, \theta]} \left( x_{i} \right) = I_{(-\infty, \theta]} \left( \max_{i \in [n]} x_{i} \right)$

$\begin{align*} \mathbf{x} :=& \left( x_{1} , \cdots , x_{n} \right) \\ \mathbf{y} :=& \left( y_{1} , \cdots , y_{n} \right) \end{align*}$ 二つのデータ $\mathbf{x} , \mathbf{y}$ に対する結合確率密度関数の比は指示関数の積に基づいて $\begin{align*} {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} =& {{ \prod_{k = 1}^{n} \theta^{-1} I_{(0,\theta)} \left( x_{k} \right) } \over { \prod_{k = 1}^{n} \theta^{-1} I_{(0,\theta)} \left( y_{k} \right) }} \\ =& {{ \theta^{-n} I_{(0,\theta)} \left( \max_{k} x_{k} \right) } \over { \theta^{-n} I_{(0,\theta)} \left( \max_{k} y_{k} \right) }} \\ =& {{ I_{(0,\theta)} \left( \max_{k} x_{k} \right) } \over { I_{(0,\theta)} \left( \max_{k} y_{k} \right) }} \end{align*}$ であり、これは $\max_{k} x_{k} = \max_{k} y_{k}$ であれば $\theta$ に関係なく常に同じ値であり、その場合に限って同じ値である。従って、 $\max_{k} x_{k}$ は $\theta$ に対する十分統計量であるだけでなく、最小十分統計量であることが保証される。

証明

便宜上、 $f \left( \mathbf{x} ; \theta \right) = 0$ の場合は考慮しなくても良いとする。ここからは、 $\mathbf{X}$ の値域を $\mathcal{X}$ とし、全ての $\mathbf{x} \in \mathcal{X}$ と $\theta$ に対して、 $f \left( \mathbf{x} ; \theta \right) \gneq 0$ だとする。

Part 1. 十分性

$T$ に対する $\mathcal{X}$ の像を $\mathcal{T} := T \left( \mathcal{X} \right)$ として表し、全ての $t > 0$ に対して、部分集合 $A_{t} := \left\{ \mathbf{x} \in \mathcal{X} : T (\mathbf{x}) = t \right\} \subset \mathcal{T}$ を定義することにより、集合 $\mathcal{T}$ の分割を考えることができる。各 $t$ に対して、要素 $\mathbf{x}_{t} \in A_{t}$ を一つ選び、 $\mathbf{x}_{T(\mathbf{x})}$ が各 $\forall \mathbf{x} \in \mathcal{X}$ に対応する $\mathbf{x}_{t}$ として表されると、 $\mathbf{x} \in A_{t} \iff \mathbf{x}_{t} \in A_{t}$ だから $T \left( \mathbf{x} \right) = T \left( \mathbf{x}_{T(\mathbf{x})} \right)$ だ。前提から ${{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = c (\theta) \text{ is constant as function a of }\theta \impliedby T (\mathbf{x}) = T (\mathbf{y})$ なので $h \left( \mathbf{x} \right) := {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{x}_{T(\mathbf{x})} ; \theta \right) }}$ として定義された関数 $h : \mathcal{X} \to \mathbb{R}$ は、 $\theta$ に対しては定数関数である。そこで、関数 $g : \mathcal{T} \to \mathbb{R}$ を $g(t ; \theta) := f \left( \mathbf{x}_{t} ; \theta \right)$ として定義すれば、次が成立する。 $\begin{align*} & f \left( \mathbf{x} ; \theta \right) \\ =& f \left( \mathbf{x}_{T \left( \mathbf{x} \right)} ; \theta \right) {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{x}_{T \left( \mathbf{x} \right)} ; \theta \right) }} \\ =& g \left( T \left( \mathbf{x} \right) ; \theta \right) \cdot h \left( \mathbf{x} \right) \end{align*}$

ネイマン分解定理: ランダムサンプル $X_{1} , \cdots , X_{n}$ がパラメーター $\theta \in \Theta$ に対して同じ確率質量/密度関数 $f \left( x ; \theta \right)$ を持つとする。統計量 $Y = u_{1} \left( X_{1} , \cdots , X_{n} \right)$ が $\theta$ の十分統計量であることは、以下を満たす非負の二つの関数 $k_{1} , k_{2} \ge 0$ が存在することを意味する。 $f \left( x_{1} ; \theta \right) \cdots f \left( x_{n} ; \theta \right) = k_{1} \left[ u_{1} \left( x_{1} , \cdots , x_{n} \right) ; \theta \right] k_{2} \left( x_{1} , \cdots , x_{n} \right)$ ただし、 $k_{2}$ は $\theta$ に依存してはならない。

ネイマン分解定理により、 $T$ は $\theta$ に対する十分統計量である。

Part 2. 最小性

$T$ 以外の十分統計量 $T'$ を考えると、ネイマン分解定理により、 $f \left( \mathbf{x} ; \theta \right) = g' \left( T ' \left( \mathbf{x} \right) ; \theta \right) \cdot h’ \left( \mathbf{x} \right)$ を満たす二つの関数 $g'$ と $h '$ が存在する。 $\mathbf{x}$ と $\mathbf{y}$ が $T ' \left( \mathbf{x} \right) = T ' \left( \mathbf{y} \right)$ を満たす任意の二つの実現について、 ${{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = {{ g' \left( T’ (\mathbf{x}) ; \theta \right) h’ \left( \mathbf{x} \right) } \over { g' \left( T’ (\mathbf{y}) ; \theta \right) h’ \left( \mathbf{x} \right) }} = {{ h’ (\mathbf{x}) } \over { h’ (\mathbf{y}) }}$ は $\theta$ に依存しないため、前提 ${{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = c (\theta) \text{ is constant as function a of }\theta \implies T (\mathbf{x}) = T (\mathbf{y})$ により $T (\mathbf{x}) = T (\mathbf{y})$ である。すなわち $T’ (\mathbf{x}) = T’ (\mathbf{y}) \implies T (\mathbf{x}) = T (\mathbf{y})$ であり、ある関数 $\lambda$ に対して $T (\mathbf{x}) = \lambda \left( T’ (\mathbf{x}) \right)$ である。従って、 $T$ は $T'$ の関数であり、 $T$ は最小十分統計量である。

■

Casella. (2001). Statistical Inference(2nd Edition): p280. ↩︎

最小十分統計量

定義 1

定理

説明

例

証明

定義 ¹