최소충분통계량
정의 1
$T \left( \mathbf{X} \right)$ 가 충분통계량이라고 하자. 모든 다른 충분통계량 $T ' \left( \mathbf{X} \right)$ 에 대해 $T \left( \mathbf{x} \right)$ 가 $T ' \left( \mathbf{x} \right)$ 의 함수로 나타나면 $T \left( \mathbf{X} \right)$ 를 최소충분통계량minimal Sufficient statistic이라 한다.
정리
$f \left( \mathbf{x} ; \theta \right)$ 가 샘플 $\mathbf{X}$ 의 확률밀도함수 혹은 확률질량함수라 하자. 모든 실현 $\mathbf{x} , \mathbf{y}$ 에 대해 $$ {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = c (\theta) \text{ is constant as function a of }\theta \iff T (\mathbf{x}) = T (\mathbf{y}) $$ 를 만족하는 $\mathbf{x}$ 의 함수 $T$ 가 존재한다면, $T \left( \mathbf{X} \right)$ 는 $\theta$ 에 대한 최소충분통계량이다.
설명
정의에서 $T$ 가 다른 모든 $T '$ 의 무언가로 나타난다는 것은 상당히 수학다운 스테이트먼트다. $T '$ 가 마찬가지로 충분통계량인 어떤 $T$ 로써 나타나지 않는다는 것은 $T '$ 가 $T$ 에 비해 어딘가 부족함이 있다는 의미고, ‘모든’ $T '$ 에 대해서 성립해야한다는 점에서 ‘최소’라는 표현이 적절함을 알 수 있다.
예시
(충분통계량의 와닿는 예시에 이어)
$$ X_{1} , \cdots , X_{n} \sim U (0,\theta) \text{ with } f \left( x ; \theta \right) = \begin{cases} 1 & , \text{if } x \in (0,\theta) \\ 0 & , \text{otherwise} \end{cases} = {{ 1 } \over { \theta }} I_{(0,\theta)} (x) $$
최대값의 모수가 $\theta$ 인 유니폼분포에서 얻은 랜덤 샘플을 생각해보면, 표본의 최대값 $\max_{k} X_{k} = X_{(n)}$ 이 $\theta$ 에 대한 충분통계량이 될 수 있었다. 직관적으로 봤을 때 이보다 좋은 충분통계량은 없어보이는데, 위 정리에 따라 실제로 확인해보자.
지시함수의 곱: $$ \prod_{i=1}^{n} I_{(-\infty, \theta]} \left( x_{i} \right) = I_{(-\infty, \theta]} \left( \max_{i \in [n]} x_{i} \right) $$
$$ \begin{align*} \mathbf{x} :=& \left( x_{1} , \cdots , x_{n} \right) \\ \mathbf{y} :=& \left( y_{1} , \cdots , y_{n} \right) \end{align*} $$ 두 데이터 $\mathbf{x} , \mathbf{y}$ 에 대해 조인트확률밀도함수의 비는 지시함수의 곱에 따라 $$ \begin{align*} {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} =& {{ \prod_{k = 1}^{n} \theta^{-1} I_{(0,\theta)} \left( x_{k} \right) } \over { \prod_{k = 1}^{n} \theta^{-1} I_{(0,\theta)} \left( y_{k} \right) }} \\ =& {{ \theta^{-n} I_{(0,\theta)} \left( \max_{k} x_{k} \right) } \over { \theta^{-n} I_{(0,\theta)} \left( \max_{k} y_{k} \right) }} \\ =& {{ I_{(0,\theta)} \left( \max_{k} x_{k} \right) } \over { I_{(0,\theta)} \left( \max_{k} y_{k} \right) }} \end{align*} $$ 이고, 이는 $\max_{k} x_{k} = \max_{k} y_{k}$ 면 $\theta$ 와 무관하게 항상 같은 값이고 오직 그 경우에만 같은 값일 수 있다. 따라서 $\max_{k} x_{k}$ 는 $\theta$ 에 대한 충분통계량일뿐만 아니라 최소충분통계량임을 보장할 수 있다.
증명
편의를 위해 $f \left( \mathbf{x} ; \theta \right) = 0$ 인 경우는 생각하지 않아도 되도록 가정하자. 이하로는 $\mathbf{X}$ 의 치역을 $\mathcal{X}$ 라 하고, 모든 $\mathbf{x} \in \mathcal{X}$ 와 $\theta$ 에 대해 $f \left( \mathbf{x} ; \theta \right) \gneq 0$ 이다.
Part 1. 충분성
$T$ 에 대한 $\mathcal{X}$ 의 이미지를 $\mathcal{T} := T \left( \mathcal{X} \right)$ 와 같이 나타내고, 모든 $t > 0$ 에 대해 $\mathcal{T}$ 의 부분집합 $$ A_{t} := \left\{ \mathbf{x} \in \mathcal{X} : T (\mathbf{x}) = t \right\} \subset \mathcal{T} $$ 를 정의함으로써 집합 $\mathcal{T}$ 의 분할을 생각할 수 있다. 각각의 $t$ 마다 하나의 원소 $\mathbf{x}_{t} \in A_{t}$ 를 잡고, $\mathbf{x}_{T(\mathbf{x})}$ 를 각각의 $\forall \mathbf{x} \in \mathcal{X}$ 에 대응하는 $\mathbf{x}_{t}$ 라 나타내면 $\mathbf{x} \in A_{t} \iff \mathbf{x}_{t} \in A_{t}$ 이므로 $T \left( \mathbf{x} \right) = T \left( \mathbf{x}_{T(\mathbf{x})} \right)$ 다. 가정에서 $$ {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = c (\theta) \text{ is constant as function a of }\theta \impliedby T (\mathbf{x}) = T (\mathbf{y}) $$ 이었으므로 $$ h \left( \mathbf{x} \right) := {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{x}_{T(\mathbf{x})} ; \theta \right) }} $$ 와 같이 정의된 함수 $h : \mathcal{X} \to \mathbb{R}$ 는 $\theta$ 에 대해서는 상수함수다. 이에 함수 $g : \mathcal{T} \to \mathbb{R}$ 를 $g(t ; \theta) := f \left( \mathbf{x}_{t} ; \theta \right)$ 와 같이 정의하면 다음이 성립한다. $$ \begin{align*} & f \left( \mathbf{x} ; \theta \right) \\ =& f \left( \mathbf{x}_{T \left( \mathbf{x} \right)} ; \theta \right) {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{x}_{T \left( \mathbf{x} \right)} ; \theta \right) }} \\ =& g \left( T \left( \mathbf{x} \right) ; \theta \right) \cdot h \left( \mathbf{x} \right) \end{align*} $$
네이만 인수분해 정리: 랜덤 샘플 $X_{1} , \cdots , X_{n}$ 이 모수 $\theta \in \Theta$ 에 대해 같은 확률질량/밀도함수 $f \left( x ; \theta \right)$ 를 가진다고 하자. 통계량 $Y = u_{1} \left( X_{1} , \cdots , X_{n} \right)$ 이 $\theta$ 의 충분통계량인 것은 다음을 만족하는 음이 아닌 두 함수 $k_{1} , k_{2} \ge 0$ 이 존재하는 것이다. $$ f \left( x_{1} ; \theta \right) \cdots f \left( x_{n} ; \theta \right) = k_{1} \left[ u_{1} \left( x_{1} , \cdots , x_{n} \right) ; \theta \right] k_{2} \left( x_{1} , \cdots , x_{n} \right) $$ 단, $k_{2}$ 는 $\theta$ 에 종속되지 않아야한다.
소인수분해 정리에 따라, $T$ 는 $\theta$ 에 대한 충분통계량이다.
Part 2. 최소성
$T$ 외의 충분통계량 $T'$ 을 생각해보면, 소인수분해 정리에 따라 $$ f \left( \mathbf{x} ; \theta \right) = g' \left( T ' \left( \mathbf{x} \right) ; \theta \right) \cdot h’ \left( \mathbf{x} \right) $$ 를 만족시키는 두 함수 $g'$ 와 $h '$ 가 존재한다. $\mathbf{x}$ 과 $\mathbf{y}$ 가 $T ' \left( \mathbf{x} \right) = T ' \left( \mathbf{y} \right)$ 를 만족시키는 임의의 두 실현이라고 하면 $$ {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = {{ g' \left( T’ (\mathbf{x}) ; \theta \right) h’ \left( \mathbf{x} \right) } \over { g' \left( T’ (\mathbf{y}) ; \theta \right) h’ \left( \mathbf{x} \right) }} = {{ h’ (\mathbf{x}) } \over { h’ (\mathbf{y}) }} $$ 는 $\theta$ 에 종속되지 않았으므로, 가정 $$ {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = c (\theta) \text{ is constant as function a of }\theta \implies T (\mathbf{x}) = T (\mathbf{y}) $$ 에 따라 $T (\mathbf{x}) = T (\mathbf{y})$ 이다. 즉 $$ T’ (\mathbf{x}) = T’ (\mathbf{y}) \implies T (\mathbf{x}) = T (\mathbf{y}) $$ 이고, 어떤 함수 $\lambda$ 에 대해 $$ T (\mathbf{x}) = \lambda \left( T’ (\mathbf{x}) \right) $$ 다. 따라서 $T$ 는 $T'$ 의 함수고, $T$ 는 최소충분통계량이다.
■
Casella. (2001). Statistical Inference(2nd Edition): p280. ↩︎