logo

基礎統計学における平均の定義 📂データサイエンス

基礎統計学における平均の定義

定義 1

$$ \overline{x} := {{ 1 } \over { n }} \sum_{k=1}^{n} x_{k} $$

$n$量的データが与えられた時、その値を全て足し$n$で割った値$\overline{x}$を標本平均sample mean算術平均arithmetic meanアベレージaverageなどと呼ぶ。

説明

一般に、平均がデータをどれだけよく要約できるか、効果的かは、わざわざ説明する必要はない。大学レベル以上の統計学を勉強している人なら、以下の疑問を理解し、平均に注意すべき時を知っていなければならない:

  • 平均はいつも信頼できるか? 明らかにそうではない。インターネット上に「ノースカロライナ大学で平均年収が最も高い学部は地理学部だ」という内容の有名なジョークがある。2そのような面白いエピソードからも分かるように、平均は異常値に弱く、代表値として適切ではない場合がある。
  • 特に危険な時は? 標本が極端に少ない時、異常値が多い時、分布が単峰性でない時などがある。ほとんどないが、理論的に母平均が存在しないと仮定する状況も考えられる。
  • それでも最も重要とされているのはなぜか? 中心極限定理のためだ。どのような分布からのランダムサンプルでも、標本平均の確率分布正規分布分布収束するという強力な定理で、単純だが統計学の基礎をなす統計量としてその価値がある。

統計学を勉強している人は、平均がいつその意味を失うかを理解し、データを慎重に確認する習慣をつけなければならない。言い換えれば、平均を正しく使うだけでなく、使わないタイミングを知ることも非常に重要だ。以下のツイッターは、データを無視した時に平均がどれだけ意味をなさなくなるか、少し誇張を交えて警告している:

고환수.jpg

参照


  1. Mendenhall. (2012). 確率と統計の導入 (13版): p54. ↩︎

  2. 平均の落とし穴  ↩︎