基礎統計学における分散の定義 📂データサイエンス

基礎統計学における分散の定義

定義 ¹

$n$個の量的データが与えられたとしよう。

標本平均$\overline{x}$とデータの差$\left( \overline{x} - x_{i} \right)$を偏差^deviationという。
偏差の二乗の和を$n-1$で割った値$s^{2}$を標本分散^{variance of a sample}と呼ぶ。 $$ s^{2} := {{ \sum \left( x_{i} - \overline{x} \right)^{2} } \over { n-1 }} $$ 標本分散の平方根$s = \sqrt{s^{2}}$を標準偏差^{standard Deviation}と言う。

説明

分散度はデータがどれだけ広がっているかを示す量で、可変性^variabilityや拡散^dispersionとも呼ばれる。分散はその分散度の尺度^{measure of Variability}として、平均に次いで重要な統計量である。

参照

統計学を初めて学ぶと、なぜわざわざ二乗をして、$n$ではなく$n-1$で割るのかなど、面倒に感じる点が多い。統計学を専攻し、学年が上がるにつれて（決して簡単ではない）数理的理論を学んでそれらの質問に答えることができるようになる。新入生であれば、とりあえずそのまま受け入れてもいい。

Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p60~63。 ↩︎