표본표준편차와 표준오차의 구분

표본표준편차와 표준오차의 구분

How different between sample standard deviation and standard error

정의

$X$ 로부터 얻은 데이터를 $\mathbb{x} = ( x_{1}, x_{2}, \cdots , x_{n} )$ 라고 하자.

  1. 표본평균: $$ \overline{x} = {{1} \over {n}} \sum_{i=1}^{n} x_{i} $$
  2. 표본표준편차: $$ s_{x} = \sqrt { {{1} \over {n-1}} \sum_{i=1}^{n} ( x_{i} - \overline{x} )^2 } $$
  3. 표준오차: $$ \text{s.e.}( \hat{x} ) = {{ s_{x} } \over { \sqrt{n} }} $$

설명

말이 비슷해서인지 의외로 많은 사람들이 표본표준편차와 표준오차를 구분하지 못한다. 사실상 통계를 글로만 배우는 고등학생들은 물론이고 심하게는 통계학과 3~4학년이 되어도 헷갈리는 경우가 부지기수다.

글을 읽기 전에 아래의 네 가지를 기억해두면 좋다:

  • (1): 표준오차는 표본평균의 표준편차다.
  • (2): 표준오차는 모집단에 대해서는 딱히 어떤 정보도 주지 않는다.
  • (3): 표준오차는 아무 말이 없어도 표본에 대해서만 논한다. 즉, ‘모표준오차’와 같은 개념은 생각하지 않는다.
  • (4): 표준오차는 주로 가설검정, 신뢰구간이나 예측구간을 구할 때 필요한 것이다. 즉, 맥락 상 구간 이야기가 있을 때만 신경쓰면 된다.

고등학생 이하

표준오차가 표본평균의 표준편차라는 점을 생각해보면 전체 표본보다는 표본평균들이 모평균에 몰려 있을 것이다. 모평균에서 벗어나있는 정도라는 점에서 다시 산포도의 개념임을 확인할 수 있으며, 표본표준편차보다야 당연히 작을 것이다. 20180425\_205309.png 한편 통계에서 우리가 관심을 가지는 것은 평균이라는 점에서 ‘오차’라는 표현은 자연스럽다. 여기서 $\pm 1.96$ 등을 곱해서 구간을 만들면 신뢰구간 혹은 예측구간이 되므로 ‘표준’이라는 표현 역시 타당하다. 말이 비슷하다고 너무 어렵게 생각하지 말고 한글자 한글자 꼭꼭 씹어서 기억하도록 하자.

대학생 이상

중심극한 정리: $$ \sqrt{n} {{ \overline{X}_n - \mu } \over {\sigma}} \overset{D}{\to} \text{N} (0,1) $$

중심극한 정리의 모양을 조금만 고치면 $\displaystyle \overline{X}_n \overset{D}{\to} \text{N} \left( \mu , {{\sigma} \over {\sqrt{n}}} \right)$ 꼴이 된다. 수식을 보면 표준오차가 표본평균의 표준편차임은 쉽게 알 수 있다.

재미있는 것은 분자 $\left( \overline{X}_{n} - \mu \right)$ 가 정규분포를 따르고 분모 $\sigma^2$ 가 카이제곱 분포를 따르면 $n$ 이 $t$ 분포의 유도에서 자유도가 된다는 사실이다. 이와 같이 적절한 가정만 만족한다면 표준오차는 검정에 필요한 통계량으로 볼 수 있게 되고, (3)과 (4) 너머의 이야기를 할 수 있게 된다.

댓글