基礎統計学における分散の定義
定義 1
$n$個の量的データが与えられたとしよう。
- 標本平均$\overline{x}$とデータの差$\left( \overline{x} - x_{i} \right)$を偏差deviationという。
- 偏差の二乗の和を$n-1$で割った値$s^{2}$を標本分散variance of a Sampleと呼ぶ。 $$ s^{2} := {{ \sum \left( x_{i} - \overline{x} \right)^{2} } \over { n-1 }} $$ 標本分散の平方根$s = \sqrt{s^{2}}$を標準偏差standard Deviationと言う。
説明
分散度はデータがどれだけ広がっているかを示す量で、可変性variabilityや拡散dispersionとも呼ばれる。分散はその分散度の尺度measure of Variabilityとして、平均に次いで重要な統計量である。
参照
統計学を初めて学ぶと、なぜわざわざ二乗をして、$n$ではなく$n-1$で割るのかなど、面倒に感じる点が多い。統計学を専攻し、学年が上がるにつれて(決して簡単ではない)数理的理論を学んでそれらの質問に答えることができるようになる。新入生であれば、とりあえずそのまま受け入れてもいい。
- 標本分散を$n-1$で割る理由
- 代表値の数理的性質:平均は分散を最小化する性質を持っている。
- 統計学における分散の数理的定義
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p60~63。 ↩︎