パーセンタイルと外れ値
定義 1
量的データが与えられたとしよう。
- 全体からより大きく、より小さい値を**-パーセンタイル**番目のパーセンタイルと言う。
- -パーセンタイルと-パーセンタイル(データで最も大きな値と小さな値)をそれぞれ最大値, 最小値と言う。
- 最大値と最小値の差をデータの範囲範囲と言う。
- -パーセンタイルを第1四分位数と言い、-パーセンタイルを第3四分位数と言う。
- を四分位範囲四分位範囲と言う。
- 最小値、第1四分位数、中央値、第3四分位数、最大値の5つの統計量を五数要約fiveと言う。
- 経験上、以下の範囲を超えたデータを外れ値outlierとも呼ぶ。 この区間の下限をロワーフェンス下限、上限をアッパーフェンス上限と言う。
説明
第2四分位数
-パーセンタイル、つまり第2四分位数は中央値そのものであるため、五数要約を語る上で別途定義する必要はない。これらの要約は十分なデータがある時に、その数字だけでデータの分布を大まかに推測できるように助けてくれ、どんなデータを見ても最初に確認すべきものだ。
外れ値
外れ値outlierは文字通り外outにあるものlierという意味で、一般的なデータの範囲から外れていたためにそう呼ばれる。はかなり小さい値で、はかなり大きな値だが、それらが期待される範囲から外れているため外れ値と呼ばれる。これは「経験的」や「一般的なデータ」という表現を使用しているため、数学的に厳密な定義ではないことに注意しよう。
Mendenhall. (2012). 確率統計入門 (13版): p76, 60, 78~80. ↩︎