パーセンタイルと外れ値
定義 1
量的データが与えられたとしよう。
- 全体から$p \%$より大きく、$(100-p) \%$より小さい値を**$p$-パーセンタイル**$p$番目のパーセンタイルと言う。
- $100$-パーセンタイルと$0$-パーセンタイル(データで最も大きな値と小さな値)をそれぞれ最大値, 最小値と言う。
- 最大値と最小値の差をデータの範囲範囲$R$と言う。
- $25$-パーセンタイルを第1四分位数$Q_{1}$と言い、$75$-パーセンタイルを第3四分位数$Q_{3}$と言う。
- $\left( Q_{3} - Q_{1} \right)$を四分位範囲四分位範囲$\text{IQR}$と言う。
- 最小値、第1四分位数、中央値、第3四分位数、最大値の5つの統計量を五数要約fiveと言う。 $$ \min \qquad Q_{1} \qquad \text{median} \qquad Q_{3} \qquad \max $$
- 経験上、以下の範囲を超えたデータを外れ値outlierとも呼ぶ。 $$ \left[ Q_{1} - 1.5 \text{IQR} , Q_{3} + 1.5 \text{IQR} \right] $$ この区間の下限をロワーフェンス下限、上限をアッパーフェンス上限と言う。
説明
第2四分位数
$50$-パーセンタイル、つまり第2四分位数は中央値そのものであるため、五数要約を語る上で別途定義する必要はない。これらの要約は十分なデータがある時に、その数字だけでデータの分布を大まかに推測できるように助けてくれ、どんなデータを見ても最初に確認すべきものだ。
外れ値
外れ値outlierは文字通り外outにあるものlierという意味で、一般的なデータの範囲から外れていたためにそう呼ばれる。$Q_{1} - 1.5 \text{IQR}$はかなり小さい値で、$Q_{3} + 1.5 \text{IQR}$はかなり大きな値だが、それらが期待される範囲から外れているため外れ値と呼ばれる。これは「経験的」や「一般的なデータ」という表現を使用しているため、数学的に厳密な定義ではないことに注意しよう。
Mendenhall. (2012). 確率統計入門 (13版): p76, 60, 78~80. ↩︎