統計学の三つの代表値:最頻値、中央値、平均
概要
代表値とは、データを説明する代表的な値のことだ。何千何万というデータがあっても、一つ一つ詳しく見るわけにはいかない場合、結局重要なのはデータが何を意味しているかであり、代表値はこれを効果的に要約する。最もよく使われる3つの代表値には、最頻値、中央値、平均がある。
- (0) 最頻値:サンプルで最も頻繁に発生した値
- (1) 中央値:サンプルで中央に位置する値、またはその以下がサンプルの半分を占める値
- (2) 平均:サンプルをすべて足してからサンプル数で割った値
例
例えば、サイコロを$10$回振って$1,1,2,3,3,4,6,6,6,6$が出たとする。すると、最頻値は最も多く登場した$6$、中央値は$3$と$4$の間の$\displaystyle {{3 + 4} \over {2} } = 3.5$、平均は$\displaystyle {{38} \over {10}} = 3.8$として計算される。
- (0): 最頻値は、数がないか、あっても大小関係が意味をなさない質的データで、例えば好きな政党や数字などでよく使われる。
- (1): 中央値は、所得や成績のように、順位が重要なデータでよく使われる。
- (2): 平均は最も一般的に使用される代表値だが、外れ値に敏感であるため注意が必要だ。平均がデータをうまく説明できないのは、小さいサンプルでのみ発生するわけではない。実際に、各種経済指標、特に国家規模のデータを扱う際には、上位10%の高所得者層や低所得者層などの分位数を使用することが多い。所得格差が広がるにつれて、平均は意味をなさなくなり、中央値と平均を区別する能力が求められるようになる。
なぜこれらの統計量が重要であるか直感的に納得できれば幸いであるが、そうでなければ、数理的な性質の証明過程を見ると良い。これは、なぜこのポストで番号付けを1,2,3ではなく、0,1,2にしたかとも関連している。
定義
確率変数$X$の確率密度関数を$f(x)$とする。
- (0’) 最頻値:$\argmax f(x)$
- (1’) 中央値:$\displaystyle \arg \int_{- \infty}^{x} f(t) dt = {{1} \over {2}}$
- (2’) 平均:$\displaystyle \int_{-\infty}^{\infty} x f(x) dx$
説明
一方、これらの代表値はサンプルだけでなく確率分布でも定義できる。ある程度統計学的数学に慣れているのであれば、これらの式だけを見て定義を理解するのが良い。
- (0’): 最頻値は、一言で言えば確率密度関数$f(x)$の値が最大となる$x$として決まる。
- (1’): 中央値は、積分してその値が$0.5$になる$x$として決まる。
- (2’): 平均は分布の期待値として計算される。
以下の図と一緒に代表値が大体どこに位置するか見てみよう。赤い矢印は最頻値を、青い矢印は中央値を、緑の矢印は平均を意味する。
単峰性でない分布
単峰性でないことは、上記のように極大値が複数存在する分布を指す。統計学や確率論ではあまり注目されないが、大学の試験結果ではこのような分布がよく見られる。クラス全員が同じように競争するわけではなく、勉強する人もいれば遊ぶ人もいるので、このような形になる。中央値と平均は一貫性がなく、最頻値は最も高い頂点で形成される。
単峰で右に尾を引く分布
指数分布、カイ二乗分布、F分布などが、このパターンに従う。このタイプは最頻値$\le$中央値$\le$平均値の順に従う。
単峰で対称的な分布
正規分布などがこのカテゴリーに含まれる。このような場合、最頻値、中央値、平均はすべて同じである。世の中の多くのものが正規分布に従うため、統計学の知識がない一般の人々はこれらを混同しやすい。例えば、クラスで30人中15位だった場合、自分の成績は全体的に平均だと考えるのが一般的だ。これが事実である可能性はあるが、必ずしもそうではない。なぜなら、正規分布という前提自体が間違っている可能性があるからだ。