logo

일치추정량 📂수리통계학

일치추정량

정의 1

확률변수 XX누적분포함수 F(x;θ),θΘF ( x ; \theta), \theta \in \Theta 를 가진다고 하자. X1,,XnX_{1} , \cdots , X_{n}XX 에서 뽑은 샘플이라고 할 때, 통계량 TnT_{n} 이 다음을 만족하면 모수 θ\theta 에 대한 일치추정량consistent estimator이라 한다.

TnPθas n T_{n} \overset{P}{\to} \theta \quad \text{as } n \to \infty


설명

불편추정량이 정확히 기대값의 개념에서 추정량을 논한다면, 일치추정량해석학에서 말하는 극한의 개념으로써… 조금만 더 정확히 말해 함수열의 균등수렴로 통계량 그 자체가 모수에 수렴하는지에 대해 논한다.

1n1k=1n(Xk2Xn)2Pσ2🤔?1nk=1n(Xk2Xn)2Pσ2🤔! \begin{align*} {{ 1 } \over { n - 1 }} \sum_{k=1}^{n} \left( X_{k}^{2} - \overline{X}_{n} \right)^{2} \overset{P}{\to}& \sigma^{2} \qquad \cdots 🤔 ? \\ {{ 1 } \over { n }} \sum_{k=1}^{n} \left( X_{k}^{2} - \overline{X}_{n} \right)^{2} \overset{P}{\to}& \sigma^{2} \qquad \cdots 🤔 ! \end{align*} 간단한 예시로써 아래의 정리를 살펴보면, 사실 증명과정에서 표본분산 SnS_{n} 의 분모는 자유도 (n1)(n-1) 이 아닌 nn 으로 정의되어도 일치추정량으로써는 문제가 없음을 알 수 있다. 이는 우리가 직관적으로 생각했을 때 ‘어차피 nn 이 커지면 nn 이나 (n1)(n-1) 이나 똑같지 않나?‘하는 고민을 수리적으로 설명하는 것과 같고, 다만 이 직관을 아래의 정리로 정당화하려면 모첨도의 존재성 정도는 필요하다는 점이 다르다.

정리

표본분산의 일치성

X1,,XnX_{1} , \cdots , X_{n}확률분포 (μ,σ2)\left( \mu, \sigma^{2} \right) 를 따르는 랜덤샘플, 즉 X1,,Xniid(μ,σ2)X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} \left( \mu, \sigma^{2} \right) 이고 모첨도가 존재한다고 하면 표본분산 Sn2S_{n}^{2}모분산 σ2\sigma^{2} 의 일치추정량이다: SnPσ2as n S_{n} \overset{P}{\to} \sigma^{2} \quad \text{as } n \to \infty

증명 2

X1,,XnX_{1} , \cdots , X_{n} 들이 랜덤샘플, 즉 iid이어서 독립이므로 표본분산 SnS_{n} 은 다음과 같이 나타낼 수 있다. Sn2=1n1k=1n(Xk2Xn)2=nn1[1nk=1nXk2Xn2] \begin{align*} S_{n}^{2} =& {{ 1 } \over { n - 1 }} \sum_{k=1}^{n} \left( X_{k}^{2} - \overline{X}_{n} \right)^{2} \\ =& {{ n } \over { n - 1 }} \left[ {{ 1 } \over { n }} \sum_{k=1}^{n} X_{k}^{2} - \overline{X}_{n}^{2} \right] \end{align*}

약한 대수의 법칙: {Xk}k=1n\left\{ X_{k} \right\}_{k=1}^{n}iid 확률 변수들이고 확률분포 (μ,σ2)\left( \mu, \sigma^2 \right) 를 따른다고 하면 nn \to \infty 일 때 XnPμ \overline{X}_n \overset{P}{\to} \mu

연속 사상 정리: XnPX    g(Xn)Pg(X)X_{n} \overset{P}{\to} X \implies g \left( X_{n} \right) \overset{P}{\to} g(X) 연속함수와 극한: 함수 f:XYf:X \to Y 에 대해 아래의 조건들은 서로 동치다.

  • f:XYf : X \to Y 는 연속이다.
  • xX, limnpn=p    limnf(pn)=f(p)\forall x \in X,\ \displaystyle \lim_{n \to \infty} p_{n} = p \implies \lim_{n \to \infty} f(p_{n}) = f(p)

제곱이 함숫값인 다항함수 λ(x)=x2\lambda (x) = x^{2}연속함수이므로 연속 사상 정리약한 대수의 법칙에 의해 nn \to \infty 일 때 다음이 성립한다. Xn2Pμ2 \overline{X}_{n}^{2} \overset{P}{\to} \mu^{2}

연속 사상 정리는 학부 수준에서는 이해하기 어렵고 해석개론에서 말하는 연속함수의 성질과 비슷한 것이라 받아들이고 넘어가도 무방하다.

확률 수렴의 정의와 동치조건: 확률변수 XX 와 확률 변수의 시퀀스 {Xn}\left\{ X_{n} \right\} 가 다음을 만족하면 nn \to \infty 일 때 XnX_{n}XX확률 수렴convergence in Probability한다고 말하고, XnPXX_{n} \overset{P}{\to} X 와 같이 나타낸다. ε>0,limnP[XnX<ε]=1 \forall \varepsilon > 0 , \lim_{n \to \infty} P \left[ \left| X_{n} - X \right| < \varepsilon \right] = 1 수식에 쓰일 때는 동치이면서 더 편리한 다음의 표현을 더욱 즐겨쓴다. ε>0,limnP[XnXε]=0 \forall \varepsilon > 0 , \lim_{n \to \infty} P \left[ \left| X_{n} - X \right| \ge \varepsilon \right] = 0

체비셰프 부등식: 확률변수 XX 의 분산 σ2<\sigma^2 < \infty 가 존재하면 μ:=E(X)\mu := E(X) 와 어떤 양수 K>0K>0 에 대해 P(XμKσ)1K2 \displaystyle P(|X-\mu| \ge K\sigma) \le {1 \over K^2}

정리의 전제에서 모첨도가 존재한다는 것은 X1X_{1}4차 적률 E(X14)<E \left( X_{1}^{4} \right) < \infty 이 존재한다는 것이므로, Xk2\sum X_{k}^{2} 의 분산은 일반성을 잃지 않고 어떤 상수 c2>0c^{2} > 0 에 대해 X1X_{1} 의 표본분산의 모분산에 비례하는 c2σ4c^{2} \sigma^{4} 로써 나타낼 수 있다. 식으로 다시 적어보면 1nk=1nXk2(E(X12),c2σ4n) {{ 1 } \over { n }} \sum_{k=1}^{n} X_{k}^{2} \sim \left( E \left( X_{1}^{2} \right) , {{ c^{2} \sigma^{4} } \over { n }} \right) 이고, 어떠한 ε>0\varepsilon > 0 이 주어지든 체비셰프 부등식에 따라 어떤 양수 K:=nε/cσ2K := n \varepsilon / c \sigma^{2} 가 존재해서 ε>0,P(1nk=1nXk2E(X12)Kcσ2)1K2    ε>0,P(1nk=1nXk2E(X12)ε)c2σ4n2ε2    ε>0,limnP(1nk=1nXk2E(X12)ε)=0    1nk=1nXk2PE(X12) \begin{align*} & \forall \varepsilon > 0, P \left( \left| {{ 1 } \over { n }} \sum_{k=1}^{n} X_{k}^{2} - E \left( X_{1}^{2} \right) \right| \ge K c \sigma^{2} \right) \le {{ 1 } \over { K^{2} }} \\ \implies & \forall \varepsilon > 0, P \left( \left| {{ 1 } \over { n }} \sum_{k=1}^{n} X_{k}^{2} - E \left( X_{1}^{2} \right) \right| \ge \varepsilon \right) \le {{ c^{2} \sigma^{4} } \over { n^{2} \varepsilon^{2} }} \\ \implies & \forall \varepsilon > 0, \lim_{n \to \infty} P \left( \left| {{ 1 } \over { n }} \sum_{k=1}^{n} X_{k}^{2} - E \left( X_{1}^{2} \right) \right| \ge \varepsilon \right) = 0 \\ \implies & {{ 1 } \over { n }} \sum_{k=1}^{n} X_{k}^{2} \overset{P}{\to} E \left( X_{1}^{2} \right) \end{align*} 이다. 정리하면 Sn2=nn1[1nk=1nXk2Xn2]P1[E(X12)μ2]=σ2 \begin{align*} S_{n}^{2} =& {{ n } \over { n - 1 }} \left[ {{ 1 } \over { n }} \sum_{k=1}^{n} X_{k}^{2} - \overline{X}_{n}^{2} \right] \\ \overset{P}{\to}& 1 \cdot \left[ E \left( X_{1}^{2} \right) - \mu^{2} \right] = \sigma^{2} \end{align*} 이고, Sn2S_{n}^{2}모분산 σ2\sigma^{2} 에 대한 일치추정량이다. 여기 n/(n1)1n / (n-1) \to 1 이라는 부분에서, 사실 표본분산은 적당한 상수 ana \ne n 에 대해 (n+a)(n+a) 로 나뉘어도 일치추정량으로써 문제가 없다는 사실을 알 수 있다.


  1. Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p298. ↩︎

  2. Hogg et al. (2018). Introduction to Mathematical Statistcs(8th Edition): p325. ↩︎