표본표준편차와 표준오차의 구분
정의
$X$ 로부터 얻은 데이터를 $\mathbf{x} = ( x_{1}, x_{2}, \cdots , x_{n} )$ 라고 하자.
- 표본평균: $$ \overline{x} = {{1} \over {n}} \sum_{i=1}^{n} x_{i} $$
- 표본표준편차: $$ s_{x} = \sqrt { {{1} \over {n-1}} \sum_{i=1}^{n} ( x_{i} - \overline{x} )^2 } $$
- 표준오차: $$ \text{s.e.} \left( \overline{X} \right) = {{ s_{x} } \over { \sqrt{n} }} $$
설명
말이 비슷해서인지 의외로 많은 사람들이 표본표준편차와 표준오차를 구분하지 못한다. 사실상 통계를 글로만 배우는 고등학생들은 물론이고 심하게는 통계학과 3~4학년이 되어도 헷갈리는 경우가 부지기수다.
글을 읽기 전에 아래의 다섯 가지를 기억해두면 좋다:
- (1): 표준오차는 표본평균의 표준편차다.
- (2): 표준오차는 모집단에 대해서는 딱히 어떤 정보도 주지 않는다.
- (3): 표준오차는 아무 말이 없어도 표본에 대해서만 논한다. 즉, ‘모표준오차’와 같은 개념은 생각하지 않는다.
- (4): 표준오차는 주로 가설검정, 신뢰구간이나 예측구간을 구할 때 필요한 것이다. 즉, 맥락 상 구간 이야기가 있을 때만 신경쓰면 된다.
- (5): 표준편차는 값이 크고 작고에 따라 좋고 나쁨을 판단할 수 없지만 표준오차는 얄짤없이 작을수록 좋다. 표준편차는 데이터끼리 ‘얼마나 다른지’를 보고, 표준오차는 표본평균이 ‘얼마나 틀렸는지’를 보기 때문이다.
고등학생 이하
표준오차가 표본평균의 표준편차라는 점을 생각해보면 전체 표본보다는 표본평균들이 모평균에 몰려 있을 것이다. 모평균에서 벗어나있는 정도라는 점에서 다시 산포도의 개념임을 확인할 수 있으며, 표본표준편차보다야 당연히 작을 것이다. 한편 통계에서 우리가 관심을 가지는 것은 평균이라는 점에서 ‘오차’라는 표현은 자연스럽다. 여기서 $\pm 1.96$ 등을 곱해서 구간을 만들면 신뢰구간 혹은 예측구간이 되므로 ‘표준’이라는 표현 역시 타당하다. 말이 비슷하다고 너무 어렵게 생각하지 말고 한글자 한글자 꼭꼭 씹어서 기억하도록 하자.
대학생 이상
중심극한 정리: $$ \sqrt{n} {{ \overline{X}_n - \mu } \over {\sigma}} \overset{D}{\to} N (0,1) $$
중심극한 정리의 모양을 조금만 고치면 $\displaystyle \overline{X}_n \overset{D}{\to} \text{N} \left( \mu , {{\sigma} \over {\sqrt{n}}} \right)$ 꼴이 된다. 수식을 보면 표준오차가 표본평균의 표준편차임은 쉽게 알 수 있다.
재미있는 것은 분자 $\left( \overline{X}_{n} - \mu \right)$ 가 정규분포를 따르고 분모 $\sigma^2$ 가 카이제곱 분포를 따르면 $n$ 이 $t$ 분포의 유도에서 자유도가 된다는 사실이다. 이와 같이 적절한 가정만 만족한다면 표준오차는 검정에 필요한 통계량으로 볼 수 있게 되고, (3)과 (4) 너머의 이야기를 할 수 있게 된다.