logo

백분위수와 이상치 📂데이터과학

백분위수와 이상치

정의 1

양적 데이터가 주어져 있다고 하자.

  1. 전체에서 $p \%$ 만큼보다 크고 $(100-p) \%$ 만큼보다 작은 값을 $p$-퍼센타일$p$th Percentile이라 한다.
  2. $100$-퍼센타일과 $0$-퍼센타일(데이터에서 가장 큰 값과 작은 값)을 각각 최대값, 최소값이라 한다.
    • 최대값과 최소값의 차를 데이터의 범위range $R$ 라 한다.
  3. $25$-퍼센타일을 1사분위수 $Q_{1}$ 이라 하고 $75$-퍼센타일을 3사분위수 $Q_{3}$ 라 한다.
    • $\left( Q_{3} - Q_{1} \right)$ 을 사분범위interqurtile Range $\text{IQR}$ 이라 한다.
  4. 최소값, 1사분위수, 중위수, 3사분위수, 최대값의 다섯가지 통계량다섯 수 요약five이라 한다. $$ \min \qquad Q_{1} \qquad \text{median} \qquad Q_{3} \qquad \max $$
  5. 경험적으로, 다음의 범위를 벗어난 데이터를 이상치outlier라 부르기도 한다. $$ \left[ Q_{1} - 1.5 \text{IQR} , Q_{3} + 1.5 \text{IQR} \right] $$ 이 구간의 하한을 로워 펜스lower Fence, 상한을 어퍼 펜스upper Fence라 한다.

설명

2사분위수

$50$-퍼센타일, 즉 2사분위수는 다름 아닌 중위수기 때문에 다섯 수 요약을 말하기 위해 굳이 따로 정의하지 않는다. 이러한 다섯 수 요약은 충분히 많은 데이터가 있을 때 그 숫자들만 보고도 데이터의 분포를 대략적으로 짐작할 수 있도록 도움을 주며, 어떤 데이터를 보더라도 가장 먼저 확인해야한다.

아웃라이어

아웃라이어outlier란 말 그대로 밖out에 놓인 것lier이라는 의미로, 보편적인 데이터에서 $Q_{1} - 1.5 \text{IQR}$ 는 꽤 작은값이며 $Q_{3} + 1.5 \text{IQR}$ 는 꽤 큰 값인데도 불구하고 그 범위를 벗어났기 때문에 아웃라이어라 불릴만하다. ‘경험적’이라거나 ‘보편적 데이터’라는 표현을 사용하는만큼 이는 수학적으로 엄밀한 정의가 아님에 주의하자.


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p76, 60, 78~80. ↩︎