logo

パーセンタイルと外れ値 📂データサイエンス

パーセンタイルと外れ値

定義 1

量的データが与えられたとしよう。

  1. 全体から$p \%$より大きく、$(100-p) \%$より小さい値を**$p$-パーセンタイル**$p$番目のパーセンタイルと言う。
  2. $100$-パーセンタイルと$0$-パーセンタイル(データで最も大きな値と小さな値)をそれぞれ最大値, 最小値と言う。
    • 最大値と最小値の差をデータの範囲範囲$R$と言う。
  3. $25$-パーセンタイルを第1四分位数$Q_{1}$と言い、$75$-パーセンタイルを第3四分位数$Q_{3}$と言う。
    • $\left( Q_{3} - Q_{1} \right)$を四分位範囲四分位範囲$\text{IQR}$と言う。
  4. 最小値、第1四分位数、中央値、第3四分位数、最大値の5つの統計量五数要約fiveと言う。 $$ \min \qquad Q_{1} \qquad \text{median} \qquad Q_{3} \qquad \max $$
  5. 経験上、以下の範囲を超えたデータを外れ値outlierとも呼ぶ。 $$ \left[ Q_{1} - 1.5 \text{IQR} , Q_{3} + 1.5 \text{IQR} \right] $$ この区間の下限をロワーフェンス下限、上限をアッパーフェンス上限と言う。

説明

第2四分位数

$50$-パーセンタイル、つまり第2四分位数は中央値そのものであるため、五数要約を語る上で別途定義する必要はない。これらの要約は十分なデータがある時に、その数字だけでデータの分布を大まかに推測できるように助けてくれ、どんなデータを見ても最初に確認すべきものだ。

外れ値

外れ値outlierは文字通り外outにあるものlierという意味で、一般的なデータの範囲から外れていたためにそう呼ばれる。$Q_{1} - 1.5 \text{IQR}$はかなり小さい値で、$Q_{3} + 1.5 \text{IQR}$はかなり大きな値だが、それらが期待される範囲から外れているため外れ値と呼ばれる。これは「経験的」や「一般的なデータ」という表現を使用しているため、数学的に厳密な定義ではないことに注意しよう。


  1. Mendenhall. (2012). 確率統計入門 (13版): p76, 60, 78~80. ↩︎