ランダムサンプルの標本平均の平均と分散 📂数理統計学

ランダムサンプルの標本平均の平均と分散

説明

簡単すぎて、実際に簡単だからって適当に考えてると、突然聞かれると意外と混乱して恥ずかしいのがまさに標本平均の平均と分散だ。少しだけ頭を使えばすぐ分かるけど、できれば頭はもっと価値のあるところで使おうとして、上の公式はとりあえず覚えておこう。

標準誤差

公式を覚える最良の方法は標準誤差と結びつけて考えることだ。学部時代、筆者に線形代数を教えてくれた数学科のある教授は、冗談交じりに「統計学はエラーを許容する数学だ」と言ったことがあった。もちろん冗談で、他の学問を貶める意図はなかっただろうけど、その言葉で最大のエラーは「エラーを許容する」という部分だ。統計学は、データがどのように分布しているか、どのように母数を推定するか、そのような推定がどれだけ間違っている可能性があるのかに関心がある。エラーがあってもいいわけではなく、エラーがあるときだけ意味のあるものに関心を持つという意味だ。すべての値が正確であれば、なぜ統計学が必要になる？

ただの分散と標準誤差はこの点で完全に異なる意味を持つ。ある分布やデータから出た分散そのものは何の意味も持たない。データが母平均を中心に大きく散らばっていても狭くても、それを使う私たち人間が困るだけでデータ自体には罪はない。だから分散は大きくても小さくてもそのまま受け入れるべきだ。 $$ \begin{align*} \text{s.e.} \left( \bar{x} \right) =& {{ s_{x} } \over { \sqrt{n} }} \\ \approx & \sqrt{{{ 1 } \over { n }} \Var X} \\ = & \sqrt{\Var \bar{X}} \end{align*} $$ しかし、標本平均の標準偏差、すなわち標準誤差は、母平均を射止めるための標本平均がどれだけ間違っているかを示す指標になる。この意味で標本平均の分散の平方根を標準誤差と呼ぶのは妥当なことを確認できる。逆に、標準誤差の分母で$\sqrt{n}$ がいきなりどこから出てきたかを考えるときは、標本平均の分散の公式を思い出すと役に立つ。

導出

どんなに自明でも$E \bar{X} = E X$ は明らかすぎるので分散だけを計算してみよう。 $$ \begin{align*} \Var \bar{X} =& \Var \left( {{ 1 } \over { n }} \left[ X_{1} + \cdots + X_{n} \right] \right) \\ \overset{\text{iid}}{=}& \sum_{k=1}^{n} \Var \left( {{ 1 } \over { n }} X_{k} \right) \\ =& \sum_{k=1}^{n} {{ 1 } \over { n^{2} }} \Var \left( X_{k} \right) \\ =& {{ n } \over { n^{2} }} \Var \left( X \right) \\ =& {{ 1 } \over { n }} \Var X \end{align*} $$

■