중심극한정리: {Xk}k=1n 이 iid확률 변수들이고 확률분포 (μ,σ2)를 따른다고 하면 n→∞ 일 때
nσXn−μ→DN(0,1)
모집단의 분포가 (μ,σ2) 이고 대표본이라 가정했으므로 모집단의 분포가 무엇이든 중심극한정리에 따라
Z=σ/nX−μ0
는 표준정규분포N(0,1) 에 거의 근사한 분포를 따른다. 마찬가지로 대표본인 경우 s≈σ 이므로 모분산을 모를 때는 σ 대신 s 를 사용해도 무방하다. 확률변수Y 가 표준정규분포를 따른다고 할 때, 유의수준α 에 대해 P(Y≥zα)=α 를 만족시키는 zα 에 대해 H0 가 기각된다는 것은 다음과 동치다.
∣Z∣≥zα
이는 귀무가설에 따라 μ=μ0 이라고 믿기엔 X 이 μ0 에서 너무 멀리 떨어져있다는 의미가 된다.
■
한편 유도과정에서 대표본이라는 가정 n≥30 이 n→∞ 처럼 간주되는 점에 의문을 가질 수 있는데, 그러니 보편적인 통계의 세계에서 ‘대표본’이라는 게 이정도 수준이라는 걸 마음으로 받아들여야한다. 2010년대 이후로 빅데이터bigdata라는 말이 하도 많이 쓰여서 천, 억 같은 단위가 안 나오면 큰 느낌도 안 들 수 있으나, 우리에게 주어진 모집단이 ‘유전자가 통제된 고가의 실험용 쥐’나 ‘희귀병 환자’라고 생각해보면 대표본이라 부르지 못할 것도 없다는 느낌이 들 것이다.
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p347. ↩︎