logo

모평균에 대한 대표본 가설검정 📂통계적검정

모평균에 대한 대표본 가설검정

가설검정 1

모집단의 분포가 (μ,σ2)\left( \mu , \sigma^{2} \right) 을 따른다고 하자. 표본이 대표본인 경우, 즉 표본의 수가 n>30n > 30 일 때 그 모평균의 후보 μ0\mu_{0} 에 대한 가설검정은 다음과 같다.

  • H0H_{0}: μ=μ0\mu = \mu_{0} 이다. 즉, 모평균은 μ0\mu_{0} 이다.
  • H1H_{1}: μμ0\mu \ne \mu_{0} 이다. 즉, 모평균은 μ0\mu_{0} 이 아니다.

검정통계량

검정통계량은 모표준편차 σ\sigma 를 아는지와 모르는지에 따라 조금 다르게 계산된다.

  • σ\sigma 를 알 때: 모표준편차 σ\sigma 를 그대로 써서 다음과 같다. Z=Xμ0σ/n Z = {{ \overline{X} - \mu_{0} } \over { \sigma / \sqrt{n} }}
  • σ\sigma 를 모를 때: 표본표준편차 ss 를 써서 다음과 같다. Z=Xμ0s/n Z = {{ \overline{X} - \mu_{0} } \over { s / \sqrt{n} }}

설명

표본평균 x\overline{x} 이 모평균 μ0\mu_{0} 을 찍을거라 예상한다고해서 대충 x=μ=μ0\overline{x} = \mu = \mu_{0} 이라 단언할 수는 없다. 통계학의 컨셉이라 하면 그거 다 더해서 나눴으니 평균이고 대충 믿으라는 게 아니라 가설검정을 통해 통계학적으로 그 주장을 뒷받침하는 것이다.

유도 2

중심극한정리: {Xk}k=1n\left\{ X_{k} \right\}_{k=1}^{n}iid 확률 변수들이고 확률분포 (μ,σ2)\left( \mu, \sigma^2 \right) 를 따른다고 하면 nn \to \infty 일 때 nXnμσDN(0,1) \sqrt{n} {{ \overline{X}_n - \mu } \over {\sigma}} \overset{D}{\to} N (0,1)

모집단의 분포가 (μ,σ2)\left( \mu , \sigma^{2} \right) 이고 대표본이라 가정했으므로 모집단의 분포가 무엇이든 중심극한정리에 따라 Z=Xμ0σ/n Z = {{ \overline{X} - \mu_{0} } \over { \sigma / \sqrt{n} }} 표준정규분포 N(0,1)N (0,1) 에 거의 근사한 분포를 따른다. 마찬가지로 대표본인 경우 sσs \approx \sigma 이므로 모분산을 모를 때는 σ\sigma 대신 ss 를 사용해도 무방하다. 확률변수 YY표준정규분포를 따른다고 할 때, 유의수준 α\alpha 에 대해 P(Yzα)=αP \left( Y \ge z_{\alpha} \right) = \alpha 를 만족시키는 zαz_{\alpha} 에 대해 H0H_{0} 가 기각된다는 것은 다음과 동치다. Zzα \left| Z \right| \ge z_{\alpha} 이는 귀무가설에 따라 μ=μ0\mu = \mu_{0} 이라고 믿기엔 X\overline{X}μ0\mu_{0} 에서 너무 멀리 떨어져있다는 의미가 된다.

한편 유도과정에서 대표본이라는 가정 n30n \ge 30nn \to \infty 처럼 간주되는 점에 의문을 가질 수 있는데, 그러니 보편적인 통계의 세계에서 ‘대표본’이라는 게 이정도 수준이라는 걸 마음으로 받아들여야한다. 2010년대 이후로 빅데이터bigdata라는 말이 하도 많이 쓰여서 천, 억 같은 단위가 안 나오면 큰 느낌도 안 들 수 있으나, 우리에게 주어진 모집단이 ‘유전자가 통제된 고가의 실험용 쥐’나 ‘희귀병 환자’라고 생각해보면 대표본이라 부르지 못할 것도 없다는 느낌이 들 것이다.


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p347. ↩︎

  2. 경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p204. ↩︎