logo

모평균에 대한 대표본 가설검정 📂통계적검정

모평균에 대한 대표본 가설검정

가설검정 1

모집단의 분포가 $\left( \mu , \sigma^{2} \right)$ 을 따른다고 하자. 표본이 대표본인 경우, 즉 표본의 수가 $n > 30$ 일 때 그 모평균의 후보 $\mu_{0}$ 에 대한 가설검정은 다음과 같다.

  • $H_{0}$: $\mu = \mu_{0}$ 이다. 즉, 모평균은 $\mu_{0}$ 이다.
  • $H_{1}$: $\mu \ne \mu_{0}$ 이다. 즉, 모평균은 $\mu_{0}$ 이 아니다.

검정통계량

검정통계량은 모표준편차 $\sigma$ 를 아는지와 모르는지에 따라 조금 다르게 계산된다.

  • $\sigma$ 를 알 때: 모표준편차 $\sigma$ 를 그대로 써서 다음과 같다. $$ Z = {{ \overline{X} - \mu_{0} } \over { \sigma / \sqrt{n} }} $$
  • $\sigma$ 를 모를 때: 표본표준편차 $s$ 를 써서 다음과 같다. $$ Z = {{ \overline{X} - \mu_{0} } \over { s / \sqrt{n} }} $$

설명

표본평균 $\overline{x}$ 이 모평균 $\mu_{0}$ 을 찍을거라 예상한다고해서 대충 $\overline{x} = \mu = \mu_{0}$ 이라 단언할 수는 없다. 통계학의 컨셉이라 하면 그거 다 더해서 나눴으니 평균이고 대충 믿으라는 게 아니라 가설검정을 통해 통계학적으로 그 주장을 뒷받침하는 것이다.

유도 2

중심극한정리: $\left\{ X_{k} \right\}_{k=1}^{n}$ 이 iid 확률 변수들이고 확률분포 $\left( \mu, \sigma^2 \right) $를 따른다고 하면 $n \to \infty$ 일 때 $$ \sqrt{n} {{ \overline{X}_n - \mu } \over {\sigma}} \overset{D}{\to} N (0,1) $$

모집단의 분포가 $\left( \mu , \sigma^{2} \right)$ 이고 대표본이라 가정했으므로 모집단의 분포가 무엇이든 중심극한정리에 따라 $$ Z = {{ \overline{X} - \mu_{0} } \over { \sigma / \sqrt{n} }} $$ 는 표준정규분포 $N (0,1)$ 에 거의 근사한 분포를 따른다. 마찬가지로 대표본인 경우 $s \approx \sigma$ 이므로 모분산을 모를 때는 $\sigma$ 대신 $s$ 를 사용해도 무방하다. 확률변수 $Y$ 가 표준정규분포를 따른다고 할 때, 유의수준 $\alpha$ 에 대해 $P \left( Y \ge z_{\alpha} \right) = \alpha$ 를 만족시키는 $z_{\alpha}$ 에 대해 $H_{0}$ 가 기각된다는 것은 다음과 동치다. $$ \left| Z \right| \ge z_{\alpha} $$ 이는 귀무가설에 따라 $\mu = \mu_{0}$ 이라고 믿기엔 $\overline{X}$ 이 $\mu_{0}$ 에서 너무 멀리 떨어져있다는 의미가 된다.

한편 유도과정에서 대표본이라는 가정 $n \ge 30$ 이 $n \to \infty$ 처럼 간주되는 점에 의문을 가질 수 있는데, 그러니 보편적인 통계의 세계에서 ‘대표본’이라는 게 이정도 수준이라는 걸 마음으로 받아들여야한다. 2010년대 이후로 빅데이터bigdata라는 말이 하도 많이 쓰여서 천, 억 같은 단위가 안 나오면 큰 느낌도 안 들 수 있으나, 우리에게 주어진 모집단이 ‘유전자가 통제된 고가의 실험용 쥐’나 ‘희귀병 환자’라고 생각해보면 대표본이라 부르지 못할 것도 없다는 느낌이 들 것이다.


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p347. ↩︎

  2. 경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p204. ↩︎