logo

パーセンタイルと外れ値 📂データサイエンス

パーセンタイルと外れ値

定義 1

量的データが与えられたとしよう。

  1. 全体からp%p \%より大きく、(100p)%(100-p) \%より小さい値を**pp-パーセンタイル**pp番目のパーセンタイルと言う。
  2. 100100-パーセンタイルと00-パーセンタイル(データで最も大きな値と小さな値)をそれぞれ最大値, 最小値と言う。
    • 最大値と最小値の差をデータの範囲範囲RRと言う。
  3. 2525-パーセンタイルを第1四分位数Q1Q_{1}と言い、7575-パーセンタイルを第3四分位数Q3Q_{3}と言う。
    • (Q3Q1)\left( Q_{3} - Q_{1} \right)四分位範囲四分位範囲IQR\text{IQR}と言う。
  4. 最小値、第1四分位数、中央値、第3四分位数、最大値の5つの統計量五数要約fiveと言う。 minQ1medianQ3max \min \qquad Q_{1} \qquad \text{median} \qquad Q_{3} \qquad \max
  5. 経験上、以下の範囲を超えたデータを外れ値outlierとも呼ぶ。 [Q11.5IQR,Q3+1.5IQR] \left[ Q_{1} - 1.5 \text{IQR} , Q_{3} + 1.5 \text{IQR} \right] この区間の下限をロワーフェンス下限、上限をアッパーフェンス上限と言う。

説明

第2四分位数

5050-パーセンタイル、つまり第2四分位数は中央値そのものであるため、五数要約を語る上で別途定義する必要はない。これらの要約は十分なデータがある時に、その数字だけでデータの分布を大まかに推測できるように助けてくれ、どんなデータを見ても最初に確認すべきものだ。

外れ値

外れ値outlierは文字通り外outにあるものlierという意味で、一般的なデータの範囲から外れていたためにそう呼ばれる。Q11.5IQRQ_{1} - 1.5 \text{IQR}はかなり小さい値で、Q3+1.5IQRQ_{3} + 1.5 \text{IQR}はかなり大きな値だが、それらが期待される範囲から外れているため外れ値と呼ばれる。これは「経験的」や「一般的なデータ」という表現を使用しているため、数学的に厳密な定義ではないことに注意しよう。


  1. Mendenhall. (2012). 確率統計入門 (13版): p76, 60, 78~80. ↩︎