logo

基礎統計学における中央値の定義 📂データサイエンス

基礎統計学における中央値の定義

定義 1

nn個の量的データが大きさ順に与えられたとき、全データの中央に位置する値を中央値またはメディアンmedian mmという。nnが奇数ならm:=x(n+1)/2m := x_{(n+1)/2}を用い、nnが偶数なら次を満たすすべてのmmが中央値である。 x1xn+12mxn+12+1xn x_{1} \le \cdots \le x_{ \lceil {{ n+1 } \over { 2 }} \rceil } \le m \le x_{ \lceil {{ n+1 } \over { 2 }} \rceil + 1} \le \cdots \le x_{n}

ここで、:RZ\lceil \cdot \rceil : \mathbb{R} \to \mathbb{Z}天井関数だ。

説明

中央値はデータの中心を示す尺度measure of Centerとして、平均値と比較して外れ値outlierに対して敏感ではない特性があり、唯一性が保証されない。定義で言及したように、標本の数が偶数の場合は無限に多くの中央値が存在するが、数学的な概念で無限に多いだけで、実際には以下のように単一で定める。 m:=(xn+12+xn+12+1)/2 m := \left( x_{\lceil {{ n+1 } \over { 2 }} \rceil} + x_{ \lceil {{ n+1 } \over { 2 }} \rceil + 1} \right) / 2

例えば、与えられたデータが 1,2,5,8,9 1,2,5,8,9 の場合、標本の数が奇数なので真ん中に位置するm=5m = 5が中央値であり、 1,2,2,4,7,81 1,2,2,4,7,81 の場合は2m42 \le m \le 4全てが中央値だが、厳密にはm=(2+4)/2=3m = (2+4)/2 = 3として扱う。ここで、8181のような大きな外れ値のせいで平均は16.1616.16に跳ね上がるが、中央値はその影響を受けないことが確認できる。

関連項目


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p55. ↩︎