표준오차의 일반적인 정의
정의 1
어떤 추정량estimator $T$ 에 대해, $T$ 의 표준편차의 추정치estimate를 표준오차standard error라 한다. $$ \text{s.e.} \left( T \right) := \sqrt{ \widehat{ \operatorname{Var} \left( T \right) } } $$
설명
정의에서 통계량이 아니라 정확히 추정량이라고 한 이유가 있다. 표준오차는 내가 찍고 싶은 모수 $\theta$ 와 ‘맞냐 틀리냐’를 논할 때가 아니면 의미가 없기 때문에 수식에서 $\theta$ 가 한 번도 등장하지 않음에도 굳이 추정량에 대해서 정의하는 것이다. 그래서 $T$ 의 후보는 뻔히 표본평균 $\overline{X}$ 이나 회귀계수 $\beta_{k}$ 등이며, 그 신뢰구간이 궁금하기 때문에 $\text{s.e.} \left( T \right)$ 가 필요해지는 것이다.
보통은 살면서 $\overline{X} = \sum_{k=1}^{n} X_{k}$ 의 표준오차 $S / \sqrt{n}$ 부터 정의처럼 배우기 때문에 이것만이 하나뿐인 표준오차라 생각하는 경우가 많은데, 사실 그건 정의도 아니고 그냥 계산을 통해 구해지는 공식이다. 최대한 생략하지 않고 직접 계산해보자. $$ \begin{align*} \text{s.e.} \left( \overline{X} \right) =& \sqrt{ \widehat{ \operatorname{Var} \left( \overline{X} \right) } } \\ =& \sqrt{ \widehat{ \operatorname{Var} \left( {{ 1 } \over { n }} \sum_{k=1}^{n} X_{k} \right) } } \\ =& \sqrt{ \widehat{ {{ 1 } \over { n^{2} }} \operatorname{Var} \left( \sum_{k=1}^{n} X_{k} \right) } } \\ \overset{\text{iid}}{=} & \sqrt{ \widehat{ {{ 1 } \over { n^{2} }} \sum_{k=1}^{n} \operatorname{Var} \left( X_{k} \right) } } \\ =& \sqrt{ {{ 1 } \over { n^{2} }} \sum_{k=1}^{n} \widehat{ \operatorname{Var} \left( X_{k} \right) } } \\ =& \sqrt{ {{ 1 } \over { n^{2} }} \sum_{k=1}^{n} S^{2} } \\ =& \sqrt{ {{ 1 } \over { n^{2} }} n S^{2} } \\ =& \sqrt{ {{ 1 } \over { n }} S^{2} } \\ =& {{ 1 } \over { \sqrt{n} }} S \end{align*} $$ 보다시피 추정량estimator과 추정치estimate가 달라서 이렇게 쉬운 예시에서도 꽤 헷갈린다. 거기에 실제로 표준오차를 사용하게 되는 많은 경우에서 표본분산을 자유도으로 나누고 루트를 취한 꼴을 많이 사용하다보니 그 모양 자체를 표준오차로 착각할 수 있다. 그러나 그런 직관이 자주 통하는 것과 관계없이, 표준오차는 그런 방식으로 정해지는 게 아니라 위와 같이 수식적인 전개로 유도해내는 것이 옳다.
Hadi. (2006). Regression Analysis by Example(4th Edition): p33. ↩︎