기초통계학에서 중앙값의 정의
정의 1
개의 양적 데이터가 크기 순서대로 주어져 있을 때, 전체 데이터의 가운데에 위치하는 값을 중앙값 혹은 중위수median 이라 한다. 이 홀수면 을 사용하고, 이 짝수면 다음을 만족하는 모든 이 중앙값이다.
여기서 은 천장함수다.
설명
중위수는 데이터의 중심을 찍기 위한 측도measure of Center로써, 평균과 비교하자면 이상치outlier에 덜 민감하다는 특징이 있으며 유일성이 보장되지 않는다. 정의에서 언급했듯 표본의 수가 짝수일 땐 무수히 많은 중위수가 존재하는데, 단지 수학적인 개념으로 무한히 많을 뿐 실제로는 그냥 다음과 같이 하나로 찍는다.
예를 들어 주어진 데이터가 라면 표본의 수가 홀수이므로 한가운데에 있는 가 중위수고, 이라면 모두가 중위수지만 굳이 그렇게 열어두지 않고 으로 두는 식이다. 여기서 과 같은 큰 이상치 때문에 평균은 으로 치솟지만 중위수는 그 영향을 받지 않은 것을 확인할 수 있다.
같이보기
- 통계학의 세가지 대표값: 최빈값, 중앙값, 평균
- 대표값의 수리적 성질: 중위수는 편차합을 최소화하는 성질을 가지고 있다.
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p55. ↩︎