랜덤샘플의 표본평균의 평균과 분산

랜덤샘플의 표본평균의 평균과 분산

Mean and Variance of Sample Mean of Random Sample

공식

랜덤샘플 $X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} X$ 이 주어져 있다고 하면 그 표본평균의 평균과 분산은 다음과 같다. $$ \begin{align*} E \bar{X} =& E X \\ \text{Var} \bar{X} =& {{ 1 } \over { n }} \text{Var} X \end{align*} $$

설명

너무 쉬워서, 실제로 쉽다보니 대충 생각해서 갑자기 물어보면 의외로 헷갈리고 당황스러운 것이 바로 표본평균의 평균과 분산이다. 조금만 머리를 굴려보면 금방 알 수 있긴한데, 가능하면 머리는 조금 더 가치있는 곳에 굴리도록 하고 위 공식은 그냥 외우도록하자.

표준오차

공식을 숙지하는 최고의 방법은 표준오차와 엮어서 생각하는 것이다. 학부 시절, 필자에게 선형대수학을 가르쳐주셨던 어떤 수학과 교수님은 농담조로 “통계학은 오류를 허용하는 수학"이라는 말씀을 하시곤 했었다. 어디까지나 농담이고, 타 학문을 깎아내릴 의도는 없으셨겠지만 그 말에서 가장 큰 오류는 ‘오류를 허용한다’는 부분이다. 통계학은 데이터가 어떻게 퍼져있는지, 어떻게 모수를 추정할건지, 그렇다면 그런 추정이 얼마나 틀릴지에 관심이 있다. 오류가 있어도 좋다는 게 아니라, 오차가 있을 때만 의미 있는 것에 관심을 가진다는 뜻이다. 모든 값이 정확할 수 있다면 거기에 통계학이 왜 필요하겠는가?

그냥 분산과 표준오차는 이러한 점에서 완전히 다른 의미를 가진다. 어떤 분포나 데이터에서 나온 분산 그 자체는 아무 의미를 가지지 않는다. 있는 그대로의 데이터가 모평균을 중심으로 퍼진 게 크든 작든, 그것을 사용하는 우리 인간이 곤란해할 수 있을 뿐 데이터 자체에는 죄가 없는 것이다. 따라서 분산은 크든 작든 있는 그대로를 받아들여야 한다. $$ \text{s.e.} \left( \hat{x} \right) = {{ s_{x} } \over { \sqrt{n} }} \approx \sqrt{{{ 1 } \over { n }} \text{Var} X} $$ 그러나 표본분산의 분산, 즉 표준오차는 모평균을 찍기 위한 표본평균이 얼마나 틀렸는지를 나타내는 지표가 된다. 이러한 의미에서 표본평균의 분산의 제곱근 같은 것을 표준오차라 부르는 것이 타당한 것임을 확인 할 수 있다. 거꾸로는 표준오차의 분모에서 $\sqrt{n}$ 가 갑자기 어디서 나왔나를 생각할 때 표본평균의 분산 공식을 떠올리면 도움이 된다.

유도

아무리 그래도 $E \bar{X} = E X$ 는 너무 자명하니 분산만 계산해보자. $$ \begin{align*} \text{Var} \bar{X} =& \text{Var} \left( {{ 1 } \over { n }} \left[ X_{1} + \cdots + X_{n} \right] \right) \\ \overset{\text{iid}}{=}& \sum_{k=1}^{n} \text{Var} \left( {{ 1 } \over { n }} X_{k} \right) \\ =& \sum_{k=1}^{n} {{ 1 } \over { n^{2} }} \text{Var} \left( X_{k} \right) \\ =& {{ n } \over { n^{2} }} \text{Var} \left( X \right) \\ =& {{ 1 } \over { n }} \text{Var} X \end{align*} $$

댓글