표본 분산을 n-1으로 나누는 이유

표본 분산을 n-1으로 나누는 이유

왜 n-1로 나누지?

$X_{i} \sim \left( \mu , \sigma^{2} \right)$ 이라고 하면 표본 분산 $S^{2}$ 는 다음과 같다. $$ S^{2} := {{1} \over {n-1}} \sum_{i=1}^{n} \left( X_{i} - \overline{X} \right)^{2} $$

알다시피 표본 평균과 달리 표본 분산은 편차의 제곱을 모두 더한 후 표본 크기인 $n$ 이 아니라 $n-1$ 로 나눈다. 당연히 이를 이상하게 느껴야한다고는 말하지 않겠지만, 수식에 대한 보편적인 감성이 있다면 $n$ 개를 더하고 $n-1$ 로 나누는 것에서 강렬한 띠꺼움을 느끼는 것 역시 정상이다. 이에 대해 고등학생, 통계학과 신입생, 통계학과 졸업자로 수준을 나누어 간략하게 설명해보려 한다.

참고로 통계학과 졸업자 수준의 설명을 제외하면 나머지는 수학적 허구가 섞여있으니, 본인이 납득할 수 없다거나 이상한 부분이 있더라도 정상이다. 또한 통계학의 분야에 따라서는 그 목적에 따라 $n-1$ 이 아닌 $n$ 으로 나누어 표본 분산을 구하는 경우도 있으므로, 맞고 틀리고를 따지기보단 정확한 이유를 파악하는 게 중요하다.

고등학생 수준의 설명

$n=1$ 일 땐 분모가 $0$ 이 되어 정의되지 않게 하기 위함이다. 기본적으로 $n$ 과 $n-1$ 은 $1$ 밖에 차이가 안 나기 때문에 어차피 표본 크기가 커지면 $n$ 로 나누나 $n-1$ 로 나누나 별다른 차이가 없다. 문제는 표본의 크기가 작을 때인데, 극단적으로 $n=1$ 라면 표본이 하나밖에 없는 경우가 될 것이다. 그런데 분산은 데이터의 산포도고, 하나밖에 없는 데이터가 얼마나 흩어져있는지는 아예 정의조차 할 수 없다고 하는 게 상식적이다.

단 하나의 데이터 $x_{1}$ 만이 주어져 있다면 그 표본평균도 $\overline{x} = x_{1}$ 이므로 표본 분산은 $s^{2} = 0$ 이 되어 ‘전혀 흩어지지 않았다’는 의미정도는 될 수 있을지도 모르겠다. 그러나 이는 사실 표본 크기가 커져도 마찬가지다. 가령 모든 데이터가 정확히 같다면 $\overline{x} = x_{1} = \cdots = x_{n}$ 이므로 결국 표본 분산은 $s^{2} = 0$ 이 될 수 있다. 수치적으로 전혀 흩어지지 않은 것과 실제로 흩어질 수 없는 것은 이러한 센스에서 본질적으로 다르다. 표본 분산을 구할 때 $n-1$ 으로 나눈다면 이런 긴 말이 짧은 수식으로 요약된다.

애초에 분산은 ‘편차의 제곱의 평균’이라고 정의된 적이 없으므로 기대값이라는 표현을 사용하지 않는다면 사실 $n$ 으로 나누어야할 이유도 딱히 없고, 실제 정의대로 ‘편차 제곱의 기대값’만 되어준다면야 $n+1$ 이나 $n-7$ 같은 뜬금 없는 수로 나누어져도 아무 상관 없다. 다만 위에서 했던 설명대로 ‘단 하나의 표본에 대해서 분산이 정의되는 것은 말이 안 된다’는 주장을 하고싶다면 그 수는 정확히 $n-1$ 이어야 할 것이다.

통계학과 신입생 수준의 설명

$n$ 은 표본 크기일 뿐이고, 정확하게는 $n-1$ 이 자유도다. 언뜻 보기엔 $X_{i}$ 을 $n$번 더하기 때문에 데이터도 $n$가지를 사용하는 것처럼 보이지만, $\overline{x} = \sum_{i=1}^{n} x_{i} / n$ 가 주어진 시점에서 $x_{1} , \cdots , x_{n-1}$ 를 알고 있다면 $$ x_{n} = n \left( \overline{x} - \sum_{i=1}^{n-1} x_{i} / n \right) $$ 와 같이 역산을 통해 상수 $x_{n}$ 을 특정할 수 있다. 말하자면 수식의 생긴 모양과 달리 실제 분산의 계산에서 사용하는 데이터의 수는 $n$개가 아니라 거기서 하나가 빠진 $n-1$개가 맞다. 이를 자유도라고 하며, 이 맥락에선 ‘자유도’를 ‘실제로 사용하는 표본 크기’라고 받아들여도 좋다. 그러니 표본 분산을 구할 때는 의미 없는 표본 크기 $n$ 이 아니라 자유도 $n-1$ 로 나누어야한다.

통계학과 졸업자 수준의 설명

쉽게 말해 표본 분산의 기대값이 모분산이 되도록 하기 위함이다. 어렵게 말하자면 표본 분산은 $n-1$ 으로 나누어야만 불편추정량이 된다. 불편추정량은 편의가 없는 추정량인데, 실제로 수식을 전개해보면 $n-1$ 으로 나누는 것이 $\overline{X}$ 를 다루는 과정에서 생기는 문제를 적절하게 해결해준다. 간단하게 요약된 수식은 다음과 같다. $$ \begin{align*} E S^{2} =& (n-1)^{-1} E \sum_{i=1}^{n} \left( X_{i} - \overline{X} \right)^{2} \\ =& (n-1)^{-1} \left[ \sum_{i=1}^{n} \left( \sigma^{2} + \mu^{2} \right) - n \left( \mu^{2} + {{\sigma^{2}} \over {n}} \right) \right] \\ =& (n-1)^{-1} (n-1) \sigma^{2} \\ =& \sigma^{2} \end{align*} $$ 위의 수식 전개는 매우 생략되어 있으므로 제대로 이해하고 싶다면 상세한 증명을 참고하는 것을 추천한다. 이러한 수리적 논의에 따르면 표본 분산을 구할 때 $n-1$ 으로 나누는 것은 $n$ 으로 나눌 때의 개선책이 아니라 필연적으로 그렇게 해야만하는 당위성을 가진다. 표본 분산을 계산했을 때 그것이 실제 모분산으로 기대되지 않는다면 그것을 표본 분산이라고 부를 이유가 없다.

만약 졸업자 수준까지 납득한 후에 고등학생, 신입생 수준을 다시 본다면 설명이 몹시 허술한 것을 알 수 있다. 고등학생의 입장에서 표본이 하나일 때 분산이 정의되지 않도록 $n-1$ 으로 나눈다는 설명은 우선 표본이 하나일 때 정의되지 않아야한다는 전제에 공감해야하며, 신입생이 자유도가 $n-1$ 임을 이해했을지라도 왜 자유도로 나누어야하는지에 대한 명쾌한 설명이 없다. 이는 그저 수식을 최대한 동원하지 않고 듣는 사람이 감각적으로 이해할 수 있게끔 설명하는 방법에 불과하다.

거꾸로 말해, 본인이 통계학을 공부해서 이해했다고 주장할만큼의 전문성을 갖추려면 최소한 이런 수식을 다룰 정도의 수학적 소양은 갖추어야만 한다. 스스로의 수준에 만족하고 충분하다고 느꼈다면 그쯤해두고 본인의 주력 분야에 집중해도 좋지만, 어딘가 아쉽다면 시간과 노력을 들여서 수식을 자연스럽게 이해해보도록 하자.

댓글