標本標準偏差と標準誤差の区別
定義
$X$から得られたデータを$\mathbf{x} = ( x_{1}, x_{2}, \cdots , x_{n} )$としよう。
- 標本平均: $$ \overline{x} = {{1} \over {n}} \sum_{i=1}^{n} x_{i} $$
- 標本標準偏差: $$ s_{x} = \sqrt { {{1} \over {n-1}} \sum_{i=1}^{n} ( x_{i} - \overline{x} )^2 } $$
- 標準誤差: $$ \text{s.e.} \left( \overline{X} \right) = {{ s_{x} } \over { \sqrt{n} }} $$
説明
用語が似ているせいか、意外と多くの人が標本標準偏差と標準誤差を区別できない。テキストで統計を学んでいる高校生だけでなく、統計学の3年生や4年生でさえ混乱することが少なくない。
以下の5つを読む前に覚えておくといい:
- (1): 標準誤差は標本平均の標準偏差である。
- (2): 標準誤差は集団について特に情報を提供しない。
- (3): 標準誤差は標本についてのみ語られる。つまり、「集団標準誤差」という概念は考えない。
- (4): 標準誤差は主に仮説検定、信頼区間や予測区間を求める際に必要なものである。言い換えれば、区間の話がある時だけ気にすればいい。
- (5): 標準偏差は大きいか小さいかで良し悪しを判断できないが、標準誤差は小さいほど良い。というのも、標準偏差はデータ間の「どれだけ違うか」を見て、標準誤差は標本平均が「どれだけ間違っているか」を見るからである。
高校生以下
標準誤差が標本平均の標準偏差であることを考えると、全体の標本よりも標本平均たちは母平均に集まっているはずだ。母平均からのずれの度合いという点で、再度分散の概念であることが確認でき、標本標準偏差よりも当然小さいはずだ。 統計では平均に興味があるため、「誤差」という表現は自然だ。ここで$\pm 1.96$をかけて区間を作れば、信頼区間や予測区間になるため、「標準」という表現も妥当だ。用語が似ているからと言って難しく考えすぎず、一文字一文字しっかり噛み砕いて覚えよう。
大学生以上
中心極限定理: $$ \sqrt{n} {{ \overline{X}_n - \mu } \over {\sigma}} \overset{D}{\to} N (0,1) $$
中心極限定理の形を少し修正すると$\displaystyle \overline{X}_n \overset{D}{\to} \text{N} \left( \mu , {{\sigma} \over {\sqrt{n}}} \right)$の形になる。式を見れば、標準誤差が標本平均の標準偏差であることは容易にわかる。
面白いのは、分子$\left( \overline{X}_{n} - \mu \right)$が正規分布に従い、分母$\sigma^2$がカイ二乗分布に従うと、$n$が$t$分布の導出で自由度になるという事実である。適切な仮定が満たされれば、標準誤差は検定に必要な統計量として見ることができ、(3)や(4)を越えた話をすることが可能になる。