백분위수와 이상치
정의 1
양적 데이터가 주어져 있다고 하자.
- 전체에서 $p \%$ 만큼보다 크고 $(100-p) \%$ 만큼보다 작은 값을 $p$-퍼센타일$p$th Percentile이라 한다.
- $100$-퍼센타일과 $0$-퍼센타일(데이터에서 가장 큰 값과 작은 값)을 각각 최대값, 최소값이라 한다.
- 최대값과 최소값의 차를 데이터의 범위range $R$ 라 한다.
- $25$-퍼센타일을 1사분위수 $Q_{1}$ 이라 하고 $75$-퍼센타일을 3사분위수 $Q_{3}$ 라 한다.
- $\left( Q_{3} - Q_{1} \right)$ 을 사분범위interqurtile Range $\text{IQR}$ 이라 한다.
- 최소값, 1사분위수, 중위수, 3사분위수, 최대값의 다섯가지 통계량을 다섯 수 요약five이라 한다. $$ \min \qquad Q_{1} \qquad \text{median} \qquad Q_{3} \qquad \max $$
- 경험적으로, 다음의 범위를 벗어난 데이터를 이상치outlier라 부르기도 한다. $$ \left[ Q_{1} - 1.5 \text{IQR} , Q_{3} + 1.5 \text{IQR} \right] $$ 이 구간의 하한을 로워 펜스lower Fence, 상한을 어퍼 펜스upper Fence라 한다.
설명
2사분위수
$50$-퍼센타일, 즉 2사분위수는 다름 아닌 중위수기 때문에 다섯 수 요약을 말하기 위해 굳이 따로 정의하지 않는다. 이러한 다섯 수 요약은 충분히 많은 데이터가 있을 때 그 숫자들만 보고도 데이터의 분포를 대략적으로 짐작할 수 있도록 도움을 주며, 어떤 데이터를 보더라도 가장 먼저 확인해야한다.
아웃라이어
아웃라이어outlier란 말 그대로 밖out에 놓인 것lier이라는 의미로, 보편적인 데이터에서 $Q_{1} - 1.5 \text{IQR}$ 는 꽤 작은값이며 $Q_{3} + 1.5 \text{IQR}$ 는 꽤 큰 값인데도 불구하고 그 범위를 벗어났기 때문에 아웃라이어라 불릴만하다. ‘경험적’이라거나 ‘보편적 데이터’라는 표현을 사용하는만큼 이는 수학적으로 엄밀한 정의가 아님에 주의하자.
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p76, 60, 78~80. ↩︎