logo

기초통계학에서 중앙값의 정의 📂데이터과학

기초통계학에서 중앙값의 정의

정의 1

nn개의 양적 데이터가 크기 순서대로 주어져 있을 때, 전체 데이터의 가운데에 위치하는 값을 중앙값 혹은 중위수median mm 이라 한다. nn 이 홀수면 m:=x(n+1)/2m := x_{(n+1)/2} 을 사용하고, nn 이 짝수면 다음을 만족하는 모든 mm 이 중앙값이다. x1xn+12mxn+12+1xn x_{1} \le \cdots \le x_{ \lceil {{ n+1 } \over { 2 }} \rceil } \le m \le x_{ \lceil {{ n+1 } \over { 2 }} \rceil + 1} \le \cdots \le x_{n}

여기서 :RZ\lceil \cdot \rceil : \mathbb{R} \to \mathbb{Z}천장함수다.

설명

중위수는 데이터의 중심을 찍기 위한 측도measure of Center로써, 평균과 비교하자면 이상치outlier에 덜 민감하다는 특징이 있으며 유일성이 보장되지 않는다. 정의에서 언급했듯 표본의 수가 짝수일 땐 무수히 많은 중위수가 존재하는데, 단지 수학적인 개념으로 무한히 많을 뿐 실제로는 그냥 다음과 같이 하나로 찍는다. m:=(xn+12+xn+12+1)/2 m := \left( x_{\lceil {{ n+1 } \over { 2 }} \rceil} + x_{ \lceil {{ n+1 } \over { 2 }} \rceil + 1} \right) / 2

예를 들어 주어진 데이터가 1,2,5,8,9 1,2,5,8,9 라면 표본의 수가 홀수이므로 한가운데에 있는 m=5m = 5 가 중위수고, 1,2,2,4,7,81 1,2,2,4,7,81 이라면 2m42 \le m \le 4 모두가 중위수지만 굳이 그렇게 열어두지 않고 m=(2+4)/2=3m = (2+4)/2 = 3 으로 두는 식이다. 여기서 8181과 같은 큰 이상치 때문에 평균은 16.1616.16으로 치솟지만 중위수는 그 영향을 받지 않은 것을 확인할 수 있다.

같이보기


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p55. ↩︎