어떤 추정량estimatorT 에 대해, T 의 표준편차의 추정치estimate를 표준오차standard error라 한다.
s.e.(T):=Var(T)
설명
정의에서 통계량이 아니라 정확히 추정량이라고 한 이유가 있다. 표준오차는 내가 찍고 싶은 모수θ 와 ‘맞냐 틀리냐’를 논할 때가 아니면 의미가 없기 때문에 수식에서 θ 가 한 번도 등장하지 않음에도 굳이 추정량에 대해서 정의하는 것이다. 그래서 T 의 후보는 뻔히 표본평균X 이나 회귀계수βk 등이며, 그 신뢰구간이 궁금하기 때문에 s.e.(T) 가 필요해지는 것이다.
보통은 살면서 X=∑k=1nXk 의 표준오차 S/n 부터 정의처럼 배우기 때문에 이것만이 하나뿐인 표준오차라 생각하는 경우가 많은데, 사실 그건 정의도 아니고 그냥 계산을 통해 구해지는 공식이다. 최대한 생략하지 않고 직접 계산해보자.
s.e.(X)====iid=====Var(X)Var(n1k=1∑nXk)n21Var(k=1∑nXk)n21k=1∑nVar(Xk)n21k=1∑nVar(Xk)n21k=1∑nS2n21nS2n1S2n1S
보다시피 추정량estimator과 추정치estimate가 달라서 이렇게 쉬운 예시에서도 꽤 헷갈린다. 거기에 실제로 표준오차를 사용하게 되는 많은 경우에서 표본분산을 자유도으로 나누고 루트를 취한 꼴을 많이 사용하다보니 그 모양 자체를 표준오차로 착각할 수 있다. 그러나 그런 직관이 자주 통하는 것과 관계없이, 표준오차는 그런 방식으로 정해지는 게 아니라 위와 같이 수식적인 전개로 유도해내는 것이 옳다.
Hadi. (2006). Regression Analysis by Example(4th Edition): p33. ↩︎