최소충분통계량

정의 ¹

$T \left( \mathbf{X} \right)$ 가 충분통계량이라고 하자. 모든 다른 충분통계량 $T ' \left( \mathbf{X} \right)$ 에 대해 $T \left( \mathbf{x} \right)$ 가 $T ' \left( \mathbf{x} \right)$ 의 함수로 나타나면 $T \left( \mathbf{X} \right)$ 를 최소충분통계량^{minimal Sufficient statistic}이라 한다.

정리

$f \left( \mathbf{x} ; \theta \right)$ 가 샘플 $\mathbf{X}$ 의 확률밀도함수 혹은 확률질량함수라 하자. 모든 실현 $\mathbf{x} , \mathbf{y}$ 에 대해 ${{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = c (\theta) \text{ is constant as function a of }\theta \iff T (\mathbf{x}) = T (\mathbf{y})$ 를 만족하는 $\mathbf{x}$ 의 함수 $T$ 가 존재한다면, $T \left( \mathbf{X} \right)$ 는 $\theta$ 에 대한 최소충분통계량이다.

설명

정의에서 $T$ 가 다른 모든 $T '$ 의 무언가로 나타난다는 것은 상당히 수학다운 스테이트먼트다. $T '$ 가 마찬가지로 충분통계량인 어떤 $T$ 로써 나타나지 않는다는 것은 $T '$ 가 $T$ 에 비해 어딘가 부족함이 있다는 의미고, ‘모든’ $T '$ 에 대해서 성립해야한다는 점에서 ‘최소’라는 표현이 적절함을 알 수 있다.

예시

(충분통계량의 와닿는 예시에 이어)

$X_{1} , \cdots , X_{n} \sim U (0,\theta) \text{ with } f \left( x ; \theta \right) = \begin{cases} 1 & , \text{if } x \in (0,\theta) \\ 0 & , \text{otherwise} \end{cases} = {{ 1 } \over { \theta }} I_{(0,\theta)} (x)$

최대값의 모수가 $\theta$ 인 유니폼분포에서 얻은 랜덤 샘플을 생각해보면, 표본의 최대값 $\max_{k} X_{k} = X_{(n)}$ 이 $\theta$ 에 대한 충분통계량이 될 수 있었다. 직관적으로 봤을 때 이보다 좋은 충분통계량은 없어보이는데, 위 정리에 따라 실제로 확인해보자.

지시함수의 곱: $\prod_{i=1}^{n} I_{(-\infty, \theta]} \left( x_{i} \right) = I_{(-\infty, \theta]} \left( \max_{i \in [n]} x_{i} \right)$

$\begin{align*} \mathbf{x} :=& \left( x_{1} , \cdots , x_{n} \right) \\ \mathbf{y} :=& \left( y_{1} , \cdots , y_{n} \right) \end{align*}$ 두 데이터 $\mathbf{x} , \mathbf{y}$ 에 대해 조인트확률밀도함수의 비는 지시함수의 곱에 따라 $\begin{align*} {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} =& {{ \prod_{k = 1}^{n} \theta^{-1} I_{(0,\theta)} \left( x_{k} \right) } \over { \prod_{k = 1}^{n} \theta^{-1} I_{(0,\theta)} \left( y_{k} \right) }} \\ =& {{ \theta^{-n} I_{(0,\theta)} \left( \max_{k} x_{k} \right) } \over { \theta^{-n} I_{(0,\theta)} \left( \max_{k} y_{k} \right) }} \\ =& {{ I_{(0,\theta)} \left( \max_{k} x_{k} \right) } \over { I_{(0,\theta)} \left( \max_{k} y_{k} \right) }} \end{align*}$ 이고, 이는 $\max_{k} x_{k} = \max_{k} y_{k}$ 면 $\theta$ 와 무관하게 항상 같은 값이고 오직 그 경우에만 같은 값일 수 있다. 따라서 $\max_{k} x_{k}$ 는 $\theta$ 에 대한 충분통계량일뿐만 아니라 최소충분통계량임을 보장할 수 있다.

증명

편의를 위해 $f \left( \mathbf{x} ; \theta \right) = 0$ 인 경우는 생각하지 않아도 되도록 가정하자. 이하로는 $\mathbf{X}$ 의 치역을 $\mathcal{X}$ 라 하고, 모든 $\mathbf{x} \in \mathcal{X}$ 와 $\theta$ 에 대해 $f \left( \mathbf{x} ; \theta \right) \gneq 0$ 이다.

Part 1. 충분성

$T$ 에 대한 $\mathcal{X}$ 의 이미지를 $\mathcal{T} := T \left( \mathcal{X} \right)$ 와 같이 나타내고, 모든 $t > 0$ 에 대해 $\mathcal{T}$ 의 부분집합 $A_{t} := \left\{ \mathbf{x} \in \mathcal{X} : T (\mathbf{x}) = t \right\} \subset \mathcal{T}$ 를 정의함으로써 집합 $\mathcal{T}$ 의 분할을 생각할 수 있다. 각각의 $t$ 마다 하나의 원소 $\mathbf{x}_{t} \in A_{t}$ 를 잡고, $\mathbf{x}_{T(\mathbf{x})}$ 를 각각의 $\forall \mathbf{x} \in \mathcal{X}$ 에 대응하는 $\mathbf{x}_{t}$ 라 나타내면 $\mathbf{x} \in A_{t} \iff \mathbf{x}_{t} \in A_{t}$ 이므로 $T \left( \mathbf{x} \right) = T \left( \mathbf{x}_{T(\mathbf{x})} \right)$ 다. 가정에서 ${{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = c (\theta) \text{ is constant as function a of }\theta \impliedby T (\mathbf{x}) = T (\mathbf{y})$ 이었으므로 $h \left( \mathbf{x} \right) := {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{x}_{T(\mathbf{x})} ; \theta \right) }}$ 와 같이 정의된 함수 $h : \mathcal{X} \to \mathbb{R}$ 는 $\theta$ 에 대해서는 상수함수다. 이에 함수 $g : \mathcal{T} \to \mathbb{R}$ 를 $g(t ; \theta) := f \left( \mathbf{x}_{t} ; \theta \right)$ 와 같이 정의하면 다음이 성립한다. $\begin{align*} & f \left( \mathbf{x} ; \theta \right) \\ =& f \left( \mathbf{x}_{T \left( \mathbf{x} \right)} ; \theta \right) {{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{x}_{T \left( \mathbf{x} \right)} ; \theta \right) }} \\ =& g \left( T \left( \mathbf{x} \right) ; \theta \right) \cdot h \left( \mathbf{x} \right) \end{align*}$

네이만 인수분해 정리: 랜덤 샘플 $X_{1} , \cdots , X_{n}$ 이 모수 $\theta \in \Theta$ 에 대해 같은 확률질량/밀도함수 $f \left( x ; \theta \right)$ 를 가진다고 하자. 통계량 $Y = u_{1} \left( X_{1} , \cdots , X_{n} \right)$ 이 $\theta$ 의 충분통계량인 것은 다음을 만족하는 음이 아닌 두 함수 $k_{1} , k_{2} \ge 0$ 이 존재하는 것이다. $f \left( x_{1} ; \theta \right) \cdots f \left( x_{n} ; \theta \right) = k_{1} \left[ u_{1} \left( x_{1} , \cdots , x_{n} \right) ; \theta \right] k_{2} \left( x_{1} , \cdots , x_{n} \right)$ 단, $k_{2}$ 는 $\theta$ 에 종속되지 않아야한다.

소인수분해 정리에 따라, $T$ 는 $\theta$ 에 대한 충분통계량이다.

Part 2. 최소성

$T$ 외의 충분통계량 $T'$ 을 생각해보면, 소인수분해 정리에 따라 $f \left( \mathbf{x} ; \theta \right) = g' \left( T ' \left( \mathbf{x} \right) ; \theta \right) \cdot h’ \left( \mathbf{x} \right)$ 를 만족시키는 두 함수 $g'$ 와 $h '$ 가 존재한다. $\mathbf{x}$ 과 $\mathbf{y}$ 가 $T ' \left( \mathbf{x} \right) = T ' \left( \mathbf{y} \right)$ 를 만족시키는 임의의 두 실현이라고 하면 ${{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = {{ g' \left( T’ (\mathbf{x}) ; \theta \right) h’ \left( \mathbf{x} \right) } \over { g' \left( T’ (\mathbf{y}) ; \theta \right) h’ \left( \mathbf{x} \right) }} = {{ h’ (\mathbf{x}) } \over { h’ (\mathbf{y}) }}$ 는 $\theta$ 에 종속되지 않았으므로, 가정 ${{ f \left( \mathbf{x} ; \theta \right) } \over { f \left( \mathbf{y} ; \theta \right) }} = c (\theta) \text{ is constant as function a of }\theta \implies T (\mathbf{x}) = T (\mathbf{y})$ 에 따라 $T (\mathbf{x}) = T (\mathbf{y})$ 이다. 즉 $T’ (\mathbf{x}) = T’ (\mathbf{y}) \implies T (\mathbf{x}) = T (\mathbf{y})$ 이고, 어떤 함수 $\lambda$ 에 대해 $T (\mathbf{x}) = \lambda \left( T’ (\mathbf{x}) \right)$ 다. 따라서 $T$ 는 $T'$ 의 함수고, $T$ 는 최소충분통계량이다.

■

Casella. (2001). Statistical Inference(2nd Edition): p280. ↩︎

최소충분통계량

정의 1

정리

설명

예시

증명

정의 ¹