logo

백분위수와 이상치 📂데이터과학

백분위수와 이상치

정의 1

양적 데이터가 주어져 있다고 하자.

  1. 전체에서 p%p \% 만큼보다 크고 (100p)%(100-p) \% 만큼보다 작은 값을 pp-퍼센타일ppth Percentile이라 한다.
  2. 100100-퍼센타일과 00-퍼센타일(데이터에서 가장 큰 값과 작은 값)을 각각 최대값, 최소값이라 한다.
    • 최대값과 최소값의 차를 데이터의 범위range RR 라 한다.
  3. 2525-퍼센타일을 1사분위수 Q1Q_{1} 이라 하고 7575-퍼센타일을 3사분위수 Q3Q_{3} 라 한다.
    • (Q3Q1)\left( Q_{3} - Q_{1} \right)사분범위interqurtile Range IQR\text{IQR} 이라 한다.
  4. 최소값, 1사분위수, 중위수, 3사분위수, 최대값의 다섯가지 통계량다섯 수 요약five이라 한다. minQ1medianQ3max \min \qquad Q_{1} \qquad \text{median} \qquad Q_{3} \qquad \max
  5. 경험적으로, 다음의 범위를 벗어난 데이터를 이상치outlier라 부르기도 한다. [Q11.5IQR,Q3+1.5IQR] \left[ Q_{1} - 1.5 \text{IQR} , Q_{3} + 1.5 \text{IQR} \right] 이 구간의 하한을 로워 펜스lower Fence, 상한을 어퍼 펜스upper Fence라 한다.

설명

2사분위수

5050-퍼센타일, 즉 2사분위수는 다름 아닌 중위수기 때문에 다섯 수 요약을 말하기 위해 굳이 따로 정의하지 않는다. 이러한 다섯 수 요약은 충분히 많은 데이터가 있을 때 그 숫자들만 보고도 데이터의 분포를 대략적으로 짐작할 수 있도록 도움을 주며, 어떤 데이터를 보더라도 가장 먼저 확인해야한다.

아웃라이어

아웃라이어outlier란 말 그대로 밖out에 놓인 것lier이라는 의미로, 보편적인 데이터에서 Q11.5IQRQ_{1} - 1.5 \text{IQR} 는 꽤 작은값이며 Q3+1.5IQRQ_{3} + 1.5 \text{IQR} 는 꽤 큰 값인데도 불구하고 그 범위를 벗어났기 때문에 아웃라이어라 불릴만하다. ‘경험적’이라거나 ‘보편적 데이터’라는 표현을 사용하는만큼 이는 수학적으로 엄밀한 정의가 아님에 주의하자.


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p76, 60, 78~80. ↩︎