logo

기초통계학에서 중앙값의 정의 📂데이터과학

기초통계학에서 중앙값의 정의

정의 1

$n$개의 양적 데이터가 크기 순서대로 주어져 있을 때, 전체 데이터의 가운데에 위치하는 값을 중앙값 혹은 중위수median $m$ 이라 한다. $n$ 이 홀수면 $m := x_{(n+1)/2}$ 을 사용하고, $n$ 이 짝수면 다음을 만족하는 모든 $m$ 이 중앙값이다. $$ x_{1} \le \cdots \le x_{ \lceil {{ n+1 } \over { 2 }} \rceil } \le m \le x_{ \lceil {{ n+1 } \over { 2 }} \rceil + 1} \le \cdots \le x_{n} $$

여기서 $\lceil \cdot \rceil : \mathbb{R} \to \mathbb{Z}$ 은 천장함수다.

설명

중위수는 데이터의 중심을 찍기 위한 측도measure of Center로써, 평균과 비교하자면 이상치outlier에 덜 민감하다는 특징이 있으며 유일성이 보장되지 않는다. 정의에서 언급했듯 표본의 수가 짝수일 땐 무수히 많은 중위수가 존재하는데, 단지 수학적인 개념으로 무한히 많을 뿐 실제로는 그냥 다음과 같이 하나로 찍는다. $$ m := \left( x_{\lceil {{ n+1 } \over { 2 }} \rceil} + x_{ \lceil {{ n+1 } \over { 2 }} \rceil + 1} \right) / 2 $$

예를 들어 주어진 데이터가 $$ 1,2,5,8,9 $$ 라면 표본의 수가 홀수이므로 한가운데에 있는 $m = 5$ 가 중위수고, $$ 1,2,2,4,7,81 $$ 이라면 $2 \le m \le 4$ 모두가 중위수지만 굳이 그렇게 열어두지 않고 $m = (2+4)/2 = 3$ 으로 두는 식이다. 여기서 $81$과 같은 큰 이상치 때문에 평균은 $16.16$으로 치솟지만 중위수는 그 영향을 받지 않은 것을 확인할 수 있다.

같이보기


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p55. ↩︎