logo

基礎統計学における分散の定義 📂データサイエンス

基礎統計学における分散の定義

定義 1

$n$個の量的データが与えられたとしよう。

  1. 標本平均$\overline{x}$とデータの差$\left( \overline{x} - x_{i} \right)$を偏差deviationという。
  2. 偏差の二乗の和を$n-1$で割った値$s^{2}$を標本分散variance of a Sampleと呼ぶ。 $$ s^{2} := {{ \sum \left( x_{i} - \overline{x} \right)^{2} } \over { n-1 }} $$ 標本分散の平方根$s = \sqrt{s^{2}}$を標準偏差standard Deviationと言う。

説明

分散度データがどれだけ広がっているかを示す量で、可変性variability拡散dispersionとも呼ばれる。分散はその分散度の尺度measure of Variabilityとして、平均に次いで重要な統計量である。

参照

統計学を初めて学ぶと、なぜわざわざ二乗をして、$n$ではなく$n-1$で割るのかなど、面倒に感じる点が多い。統計学を専攻し、学年が上がるにつれて(決して簡単ではない)数理的理論を学んでそれらの質問に答えることができるようになる。新入生であれば、とりあえずそのまま受け入れてもいい。


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p60~63。 ↩︎