일치추정량
정의 1
확률변수 $X$ 가 누적분포함수 $F ( x ; \theta), \theta \in \Theta$ 를 가진다고 하자. $X_{1} , \cdots , X_{n}$ 을 $X$ 에서 뽑은 샘플이라고 할 때, 통계량 $T_{n}$ 이 다음을 만족하면 모수 $\theta$ 에 대한 일치추정량consistent estimator이라 한다.
$$ T_{n} \overset{P}{\to} \theta \quad \text{as } n \to \infty $$
- $\overset{P}{\to}$ 는 확률수렴이다.
설명
불편추정량이 정확히 기대값의 개념에서 추정량을 논한다면, 일치추정량은 해석학에서 말하는 극한의 개념으로써… 조금만 더 정확히 말해 함수열의 균등수렴로 통계량 그 자체가 모수에 수렴하는지에 대해 논한다.
$$ \begin{align*} {{ 1 } \over { n - 1 }} \sum_{k=1}^{n} \left( X_{k}^{2} - \overline{X}_{n} \right)^{2} \overset{P}{\to}& \sigma^{2} \qquad \cdots 🤔 ? \\ {{ 1 } \over { n }} \sum_{k=1}^{n} \left( X_{k}^{2} - \overline{X}_{n} \right)^{2} \overset{P}{\to}& \sigma^{2} \qquad \cdots 🤔 ! \end{align*} $$ 간단한 예시로써 아래의 정리를 살펴보면, 사실 증명과정에서 표본분산 $S_{n}$ 의 분모는 자유도 $(n-1)$ 이 아닌 $n$ 으로 정의되어도 일치추정량으로써는 문제가 없음을 알 수 있다. 이는 우리가 직관적으로 생각했을 때 ‘어차피 $n$ 이 커지면 $n$ 이나 $(n-1)$ 이나 똑같지 않나?‘하는 고민을 수리적으로 설명하는 것과 같고, 다만 이 직관을 아래의 정리로 정당화하려면 모첨도의 존재성 정도는 필요하다는 점이 다르다.
정리
표본분산의 일치성
$X_{1} , \cdots , X_{n}$ 가 확률분포 $\left( \mu, \sigma^{2} \right)$ 를 따르는 랜덤샘플, 즉 $X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} \left( \mu, \sigma^{2} \right)$ 이고 모첨도가 존재한다고 하면 표본분산 $S_{n}^{2}$ 은 모분산 $\sigma^{2}$ 의 일치추정량이다: $$ S_{n} \overset{P}{\to} \sigma^{2} \quad \text{as } n \to \infty $$
증명 2
$X_{1} , \cdots , X_{n}$ 들이 랜덤샘플, 즉 iid이어서 독립이므로 표본분산 $S_{n}$ 은 다음과 같이 나타낼 수 있다. $$ \begin{align*} S_{n}^{2} =& {{ 1 } \over { n - 1 }} \sum_{k=1}^{n} \left( X_{k}^{2} - \overline{X}_{n} \right)^{2} \\ =& {{ n } \over { n - 1 }} \left[ {{ 1 } \over { n }} \sum_{k=1}^{n} X_{k}^{2} - \overline{X}_{n}^{2} \right] \end{align*} $$
약한 대수의 법칙: $\left\{ X_{k} \right\}_{k=1}^{n}$ 이 iid 확률 변수들이고 확률분포 $\left( \mu, \sigma^2 \right) $를 따른다고 하면 $n \to \infty$ 일 때 $$ \overline{X}_n \overset{P}{\to} \mu $$
연속 사상 정리: $$X_{n} \overset{P}{\to} X \implies g \left( X_{n} \right) \overset{P}{\to} g(X) $$ 연속함수와 극한: 함수 $f:X \to Y$ 에 대해 아래의 조건들은 서로 동치다.
- $f : X \to Y$ 는 연속이다.
- $\forall x \in X,\ \displaystyle \lim_{n \to \infty} p_{n} = p \implies \lim_{n \to \infty} f(p_{n}) = f(p)$
제곱이 함숫값인 다항함수 $\lambda (x) = x^{2}$ 는 연속함수이므로 연속 사상 정리와 약한 대수의 법칙에 의해 $n \to \infty$ 일 때 다음이 성립한다. $$ \overline{X}_{n}^{2} \overset{P}{\to} \mu^{2} $$
연속 사상 정리는 학부 수준에서는 이해하기 어렵고 해석개론에서 말하는 연속함수의 성질과 비슷한 것이라 받아들이고 넘어가도 무방하다.
확률 수렴의 정의와 동치조건: 확률변수 $X$ 와 확률 변수의 시퀀스 $\left\{ X_{n} \right\}$ 가 다음을 만족하면 $n \to \infty$ 일 때 $X_{n}$ 이 $X$ 로 확률 수렴convergence in Probability한다고 말하고, $X_{n} \overset{P}{\to} X$ 와 같이 나타낸다. $$ \forall \varepsilon > 0 , \lim_{n \to \infty} P \left[ \left| X_{n} - X \right| < \varepsilon \right] = 1 $$ 수식에 쓰일 때는 동치이면서 더 편리한 다음의 표현을 더욱 즐겨쓴다. $$ \forall \varepsilon > 0 , \lim_{n \to \infty} P \left[ \left| X_{n} - X \right| \ge \varepsilon \right] = 0 $$
체비셰프 부등식: 확률변수 $X$ 의 분산 $\sigma^2 < \infty$ 가 존재하면 $\mu := E(X)$ 와 어떤 양수 $K>0$ 에 대해 $$ \displaystyle P(|X-\mu| \ge K\sigma) \le {1 \over K^2} $$
정리의 전제에서 모첨도가 존재한다는 것은 $X_{1}$ 의 4차 적률 $E \left( X_{1}^{4} \right) < \infty$ 이 존재한다는 것이므로, $\sum X_{k}^{2}$ 의 분산은 일반성을 잃지 않고 어떤 상수 $c^{2} > 0$ 에 대해 $X_{1}$ 의 표본분산의 모분산에 비례하는 $c^{2} \sigma^{4}$ 로써 나타낼 수 있다. 식으로 다시 적어보면 $$ {{ 1 } \over { n }} \sum_{k=1}^{n} X_{k}^{2} \sim \left( E \left( X_{1}^{2} \right) , {{ c^{2} \sigma^{4} } \over { n }} \right) $$ 이고, 어떠한 $\varepsilon > 0$ 이 주어지든 체비셰프 부등식에 따라 어떤 양수 $K := n \varepsilon / c \sigma^{2}$ 가 존재해서 $$ \begin{align*} & \forall \varepsilon > 0, P \left( \left| {{ 1 } \over { n }} \sum_{k=1}^{n} X_{k}^{2} - E \left( X_{1}^{2} \right) \right| \ge K c \sigma^{2} \right) \le {{ 1 } \over { K^{2} }} \\ \implies & \forall \varepsilon > 0, P \left( \left| {{ 1 } \over { n }} \sum_{k=1}^{n} X_{k}^{2} - E \left( X_{1}^{2} \right) \right| \ge \varepsilon \right) \le {{ c^{2} \sigma^{4} } \over { n^{2} \varepsilon^{2} }} \\ \implies & \forall \varepsilon > 0, \lim_{n \to \infty} P \left( \left| {{ 1 } \over { n }} \sum_{k=1}^{n} X_{k}^{2} - E \left( X_{1}^{2} \right) \right| \ge \varepsilon \right) = 0 \\ \implies & {{ 1 } \over { n }} \sum_{k=1}^{n} X_{k}^{2} \overset{P}{\to} E \left( X_{1}^{2} \right) \end{align*} $$ 이다. 정리하면 $$ \begin{align*} S_{n}^{2} =& {{ n } \over { n - 1 }} \left[ {{ 1 } \over { n }} \sum_{k=1}^{n} X_{k}^{2} - \overline{X}_{n}^{2} \right] \\ \overset{P}{\to}& 1 \cdot \left[ E \left( X_{1}^{2} \right) - \mu^{2} \right] = \sigma^{2} \end{align*} $$ 이고, $S_{n}^{2}$ 는 모분산 $\sigma^{2}$ 에 대한 일치추정량이다. 여기 $n / (n-1) \to 1$ 이라는 부분에서, 사실 표본분산은 적당한 상수 $a \ne n$ 에 대해 $(n+a)$ 로 나뉘어도 일치추정량으로써 문제가 없다는 사실을 알 수 있다.
■