標本分散をn-1で割る理由 📂数理統計学

標本分散をn-1で割る理由

なぜ n-1で割るのか?

$X_{i} \sim \left( \mu , \sigma^{2} \right)$ とすると、標本分散 $S^{2}$ は次のようになる。 $$ S^{2} := {{1} \over {n-1}} \sum_{i=1}^{n} \left( X_{i} - \overline{X} \right)^{2} $$

ご存知の通り、標本平均と異なり、標本分散では偏差の平方をすべて足した後、標本サイズの $n$ ではなく、$n-1$ で割る。これがおかしいとは言わないが、式に対する一般的な感覚があるなら、$n$ 個を足して $n-1$ で割ることに強い嫌悪感を感じるのも普通だ。これについて、高校生、統計学部の新入生、統計学部の卒業生のレベルで簡単に説明してみよう。

ちなみに、統計学部の卒業生レベルの説明を除いて、残りは数学的な虚構が混じっているので、納得できなかったり、おかしなところがあっても問題ない。また、統計学の分野によっては、目的に応じて$n-1$ ではなく$n$ で標本分散を求める場合もあるため、正しいか間違っているかを議論するよりは、正確な理由を理解することが大切だ。

高校生レベルの説明

$n=1$ のとき、分母が $0$ になって、定義できなくするためだ。基本的に、$n$ と $n-1$ は $1$ しか違わないから、標本サイズが大きくなれば、$n$ で割ろうが $n-1$ で割ろうが、大した違いはない。問題は標本のサイズが小さいときで、極端な話、$n=1$ だと、標本が一つしかない場合になる。しかし、分散はデータの分布を話しており、一つしかないデータがどれだけ散らばっているかは、そもそも定義できないというのが常識だ。

ただ一つのデータ $x_{1}$ が与えられた場合、その標本平均も $\overline{x} = x_{1}$ となり、標本分散は $s^{2} = 0$ となって、「全く散らばっていない」という意味になるかもしれない。しかし、これは標本サイズが大きくなっても同じだ。すべてのデータが正確に同じであれば、$\overline{x} = x_{1} = \cdots = x_{n}$ となり、結局標本分散は $s^{2} = 0$ となることができる。数値的に全く散らばっていないことと、実際に散らばることができないことは、この感覚で本質的に異なる。標本分散を求めるときに $n-1$ で割ると、このような長い話が短い式に要約される。

そもそも分散が「偏差の平方の平均」として定義されたことはなく、期待値という表現を使わなければ、実際は$n$ で割る理由も特になく、正式な定義に従うなら「偏差の平方の期待値」となれば、$n+1$ や $n-7$ などのよく分からない数で割られても構わない。ただ、上述の説明のように「一つの標本に対して分散が定義されるのはおかしい」と主張したいなら、その数は正確に $n-1$ であるべきだ。

統計学部新入生のレベルの説明

$n$ は標本サイズに過ぎず、正確には $n-1$ が自由度だ。一見、$X_{i}$ を$n$ 回足すから、データも $n$ 種類を使っているように見えるが、$\overline{x} = \sum_{i=1}^{n} x_{i} / n$ が与えられた時点で、$x_{1} , \cdots , x_{n-1}$ を知っていれば $$ x_{n} = n \left( \overline{x} - \sum_{i=1}^{n-1} x_{i} / n \right) $$ のように逆算して定数 $x_{n}$ を特定できる。つまり、式の見た目とは異なり、実際の分散の計算で使うデータの数は $n$ 個ではなく、そこから一つが失われた $n-1$ 個が正しい。これを自由度といい、この文脈では「実際に使う標本サイズ」と受け取ってもよい。だから、標本分散を求めるときは、意味のない標本サイズ $n$ ではなく、自由度 $n-1$ で割らなければならない。

統計学部の卒業生レベルの説明

簡単に言えば、標本分散の期待値が母分散になるようにするためだ。難しく言えば、標本分散は $n-1$ で割ることによって不偏推定量になる。不偏推定量は偏りのない推定量で、実際に式を展開してみると、$n-1$ で割ることが $\overline{X}$ を扱う過程で生じる問題を適切に解決してくれる。簡単にまとめられた式は以下の通り。 $$ \begin{align*} E S^{2} =& (n-1)^{-1} E \sum_{i=1}^{n} \left( X_{i} - \overline{X} \right)^{2} \\ =& (n-1)^{-1} \left[ \sum_{i=1}^{n} \left( \sigma^{2} + \mu^{2} \right) - n \left( \mu^{2} + {{\sigma^{2}} \over {n}} \right) \right] \\ =& (n-1)^{-1} (n-1) \sigma^{2} \\ =& \sigma^{2} \end{align*} $$ この式の展開は非常に端折られているので、正しく理解したい場合は、詳細な証明を参照することをお勧めする。このような数理的な議論によれば、標本分散を求めるときに $n-1$ で割るのは、$n$ で割るときの改善策ではなく、必然としてそうすべきだという正当性を持っている。計算した標本分散が実際の母分散と期待されないなら、それを標本分散と呼ぶ理由がない。

もし、卒業生レベルまで納得した後に、高校生、新入生レベルの説明を再び見れば、説明が非常に不十分であることが分かる。高校生の立場から、標本が一つの時に分散が定義されないように$n-1$で割るという説明は、一つの標本で定義されなければならないという前提に賛同する必要があり、新入生が自由度が$n-1$であることを理解したとしても、なぜ自由度で割る必要があるのかについての明確な説明がない。これは単に、できるだけ式に頼らずに、聞く人が感覚的に理解できるように説明する方法に過ぎない。

逆に言えば、自分自身が統計学を勉強して理解したと主張するには、少なくともそのような式を扱うだけの数学的な素養を備える必要がある。自分のレベルに満足していて、十分だと感じるなら、自分の主要な分野に集中しても良いが、何か物足りなければ、時間と努力を投資して、式を自然に理解できるようにしよう。