基礎統計学における平均の定義
定義 1
$$ \overline{x} := {{ 1 } \over { n }} \sum_{k=1}^{n} x_{k} $$
$n$量的データが与えられた時、その値を全て足し$n$で割った値$\overline{x}$を標本平均sample mean、算術平均arithmetic mean、アベレージaverageなどと呼ぶ。
説明
一般に、平均がデータをどれだけよく要約できるか、効果的かは、わざわざ説明する必要はない。大学レベル以上の統計学を勉強している人なら、以下の疑問を理解し、平均に注意すべき時を知っていなければならない:
- 平均はいつも信頼できるか? 明らかにそうではない。インターネット上に「ノースカロライナ大学で平均年収が最も高い学部は地理学部だ」という内容の有名なジョークがある。2そのような面白いエピソードからも分かるように、平均は異常値に弱く、代表値として適切ではない場合がある。
- 特に危険な時は? 標本が極端に少ない時、異常値が多い時、分布が単峰性でない時などがある。ほとんどないが、理論的に母平均が存在しないと仮定する状況も考えられる。
- それでも最も重要とされているのはなぜか? 中心極限定理のためだ。どのような分布からのランダムサンプルでも、標本平均の確率分布は正規分布に分布収束するという強力な定理で、単純だが統計学の基礎をなす統計量としてその価値がある。
統計学を勉強している人は、平均がいつその意味を失うかを理解し、データを慎重に確認する習慣をつけなければならない。言い換えれば、平均を正しく使うだけでなく、使わないタイミングを知ることも非常に重要だ。以下のツイッターは、データを無視した時に平均がどれだけ意味をなさなくなるか、少し誇張を交えて警告している:
参照
- 統計学の三つの代表値:最頻値、中央値、平均
- 代表値の数学的性質: 平均は分散を最小化する性質を持っている。