基礎統計学における中央値の定義
定義 1
$n$個の量的データが大きさ順に与えられたとき、全データの中央に位置する値を中央値またはメディアンmedian $m$という。$n$が奇数なら$m := x_{(n+1)/2}$を用い、$n$が偶数なら次を満たすすべての$m$が中央値である。 $$ x_{1} \le \cdots \le x_{ \lceil {{ n+1 } \over { 2 }} \rceil } \le m \le x_{ \lceil {{ n+1 } \over { 2 }} \rceil + 1} \le \cdots \le x_{n} $$
ここで、$\lceil \cdot \rceil : \mathbb{R} \to \mathbb{Z}$は天井関数だ。
説明
中央値はデータの中心を示す尺度measure of Centerとして、平均値と比較して外れ値outlierに対して敏感ではない特性があり、唯一性が保証されない。定義で言及したように、標本の数が偶数の場合は無限に多くの中央値が存在するが、数学的な概念で無限に多いだけで、実際には以下のように単一で定める。 $$ m := \left( x_{\lceil {{ n+1 } \over { 2 }} \rceil} + x_{ \lceil {{ n+1 } \over { 2 }} \rceil + 1} \right) / 2 $$
例えば、与えられたデータが $$ 1,2,5,8,9 $$ の場合、標本の数が奇数なので真ん中に位置する$m = 5$が中央値であり、 $$ 1,2,2,4,7,81 $$ の場合は$2 \le m \le 4$全てが中央値だが、厳密には$m = (2+4)/2 = 3$として扱う。ここで、$81$のような大きな外れ値のせいで平均は$16.16$に跳ね上がるが、中央値はその影響を受けないことが確認できる。
関連項目
- 統計学の三つの代表値: 最頻値、中央値、平均値
- 代表値の数理的性質: 中央値は偏差の和を最小化する性質を持っている。
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p55. ↩︎