바수 정리 증명
정리
만약 $T \left( \mathbf{X} \right)$ 이 완비통계량이면서 최소충분통계량이면, $T \left( \mathbf{X} \right)$ 은 모든 보조통계량과 독립이다.
설명
바수 정리는 충분통계량에 관한 정리 중에 가장 중요한 정리로써, 어떤 두 통계량이 독립임을 보일 수 있는 아주 강력한 결과를 도출 할 수 있다. 직관적으로 충분통계량은 모수 $\theta$ 에 대한 모든 정보를 가지고, 보조통계량은 $\theta$ 에 종속되어 있지 않으므로 둘은 당연히 독립일 것 같지만 충분통계량에는 최소성과 더불어 이른바 ‘상식적인’ 성질인 완비성을 갖추어야 독립을 보장할 수 있다.
대표적인 결과로는 정규분포에서 나온 랜덤샘플의 표본평균 $\overline{X}$ 과 표본분산 $S^{2}$ 이 독립이라는 것이다. 물론 이들이 독립임은 스튜던트의 정리에서 바수 정리 없이 보일 수도 있지만, 그에 비해 조금 더 일반적인 증명법이라 볼 수 있다.
증명 1
전략: 이산확률분포의 경우만 증명해보자. $S \left( \mathbf{X} \right)$ 가 모수 $\theta$ 에 대한 보조통계량이라고 하면 $P \left( S \left( \mathbf{X} \right) = s \right)$ 는 $\theta$ 에 종속되지 않으며, 충분통계량의 정의에 따라 조건부확률 $$ P \left( S \left( \mathbf{X} \right) = s \mid T \left( \mathbf{X} \right) = t \right) = P \left( \mathbf{X} \in \left\{ \mathbf{x} : S \left( \mathbf{x} \right) = s \right\} \mid T \left( \mathbf{X} \right) = t \right) $$ 역시 $\theta$ 에 종속되지 않는다. 따라서 다음을 보이면 충분하다. $$ P \left( S \left( \mathbf{X} \right) = s \mid T \left( \mathbf{X} \right) = t \right) = P \left( S \left( \mathbf{X} \right) = s \right) \qquad , \forall t $$
확률의 덧셈 법칙에 따라 $$ P \left( S \left( \mathbf{X} \right) = s \right) = \sum_{t} P \left( S \left( \mathbf{X} \right) = s \mid T \left( \mathbf{X} \right) = t \right) P_{\theta} \left( T \left( \mathbf{X} \right) = t \right) $$ 이다. 한편 $1 = \sum_{t} P_{\theta} \left( T \left( \mathbf{X} \right) = t \right)$ 의 양변에 $P \left( S \left( \mathbf{X} \right) = s \right)$ 을 곱하면 $$ \begin{align*} P \left( S \left( \mathbf{X} \right) = s \right) \cdot 1 =& P \left( S \left( \mathbf{X} \right) = s \right) \cdot \sum_{t} P_{\theta} \left( T \left( \mathbf{X} \right) = t \right) \\ =& \sum_{t} P \left( S \left( \mathbf{X} \right) = s \right) P_{\theta} \left( T \left( \mathbf{X} \right) = t \right) \end{align*} $$ 이다. 이에 다음과 같은 통계량 $$ g(t) := P \left( S \left( \mathbf{X} \right) = s \mid T \left( \mathbf{X} \right) = t \right) - P \left( S \left( \mathbf{X} \right) = s \right) $$ 을 정의해보면 모든 $\theta$ 에 대해 $$ \begin{align*} E_{\theta} g (T) =& \sum_{t} g(t) P_{\theta} \left( T \left( \mathbf{X} \right) = t \right) \\ =& P \left( S \left( \mathbf{X} \right) = s \right) - P \left( S \left( \mathbf{X} \right) = s \right) \\ =& 0 \end{align*} $$ 이다.
완비통계량의 정의: $$ \forall \theta, E_{\theta} g (T) = 0 \implies \forall \theta, P_{\theta} \left( g(T) = 0 \right) = 1 $$
$T \left( \mathbf{X} \right)$ 는 완비통계량으로 가정했으므로, 가능한 모든 $t$ 와 모든 $\theta$ 에 대해 $$ P_{\theta} \left( g(T) = 0 \right) = 1 $$ 이다. 다시 말해, 다음이 성립한다. $$ P \left( S \left( \mathbf{X} \right) = s \mid T \left( \mathbf{X} \right) = t \right) = P \left( S \left( \mathbf{X} \right) = s \right) \qquad , \forall t $$
■
Casella. (2001). Statistical Inference(2nd Edition): p287. ↩︎