통계학의 세가지 대표값: 최빈값, 중앙값, 평균
개요
대표값은 데이터를 설명하는 대표적인 값을 말한다. 수천 수만에 달하는 데이터가 있어도 일일이 다 살펴볼 게 아니라면 결국 중요한 것은 데이터가 무엇을 의미하느냐고, 대표값은 이를 효과적으로 요약한다. 그 중 가장 자주 쓰이는 세가지 대표값으로써 최빈값, 중앙값, 평균이 있다.
- (0) 최빈값: 표본에서 가장 자주 발생한 값
- (1) 중앙값: 표본에서 중앙에 위치하는 값 혹은 그 이하가 표본의 절반을 차지하는 값
- (2) 평균: 표본을 모두 더한 후 표본의 수로 나눈 값
예시
예를 들어 주사위를 $10$ 번 굴려 $1,1,2,3,3,4,6,6,6,6$ 이 나왔다고 하자. 그러면 최빈값은 가장 많이 등장한 $6$, 중앙값은 $3$ 과 $4$ 사이의 $\displaystyle {{3 + 4} \over {2} } = 3.5$, 평균은 $\displaystyle {{38} \over {10}} = 3.8$ 으로 구해진다.
- (0): 최빈값은 지지하는 정당이나 좋아하는 숫자 등 수가 없거나 수가 있더라도 대소관계가 의미 없는 질적 자료에서 많이 쓰인다.
- (1): 중앙값은 소득이나 성적처럼 우열을 가릴 수 있는 등 순위가 중요한 중요한 자료에서 많이 쓰인다.
- (2): 평균은 알다시피 가장 즐겨쓰는 대표값이지만 이상치에 민감하다는 단점이 있어 의외로 주의를 요한다. 평균이 데이터를 잘 설명하지 못하는 경우가 비단 소표본에서만 일어나는 것이 아니다. 실제로 각종 경제 지표, 특히 국가 규모의 데이터를 다룰때는 소득 상위 10%, 저소득층과 같이 분위수를 쓰는 경우가 많다. 소득 불균형이 커질수록 평균은 의미를 잃어가며, 중앙값과 평균을 구분할 수 있는 분별력이 필요해진다.
왜 하필 이러한 통계량을 중요하게 생각하는지 직관적으로 납득이 된다면 다행이고, 그렇지 못하다면 수리적 성질의 증명과정을 살펴보는 게 좋다. 이는 이 포스트에서 왜 넘버링을 1,2,3 이 아니라 0,1,2 로 했는지와도 연결된다.
정의
확률변수 $X$ 의 확률밀도함수를 $f(x)$ 라고 하자.
- (0’) 최빈값: $\argmax f(x)$
- (1’) 중앙값: $\displaystyle \arg \int_{- \infty}^{x} f(t) dt = {{1} \over {2}}$
- (2’) 평균: $\displaystyle \int_{-\infty}^{\infty} x f(x) dx$
설명
한편 이러한 대표값은 표본이 아니라 확률분포에서도 정의될 수 있다. 어느정도 통계에 관한 수학이 익숙하다면 위의 수식만으로 정의를 이해해보는 것이 좋다.
- (0’): 최빈값은 한마디로 확률밀도함수 $f(x)$ 의 값이 최대가 되도록 하는 $x$ 로써 구해진다.
- (1’): 중앙값은 적분해서 정확히 그 값이 $0.5$ 가 되도록 하는 $x$ 로써 구해진다.
- (2’): 평균은 분포의 기대값으로 구해진다.
아래의 그림들과 함께 대표값들이 대략 어디쯤 위치하는지 살펴보자. 빨간색 화살표는 최빈값, 파란색 화살표는 중앙값, 녹색 화살표는 평균을 의미한다.
단봉형이 아닌 분포
단봉Unimodal이 아니라는 것은 위와 같이 극대값이 여럿 존재하는 분포를 말한다. 통계학이나 확률론에선 별로 관심의 대상이 아니지만 대학교 시험 결과는 이러한 분포를 많이 따른다. 한 수업이라고 다 같이 최선을 다해 경쟁하는 게 아니라 공부할 사람은 하고 놀 사람은 놀 때 이런 모양이 된다. 중앙값과 평균은 딱히 일관성이 없으며 최빈값은 가장 높은 극대점에서 형성된다.
단봉이면서 오른쪽으로 꼬리가 긴 분포
지수분포, 카이제곱분포, F등이 이런 분포를 따른다. 이러한 유형은 최빈값$\le$중앙값$\le$평균값을 따른다.
단봉이면서 대칭인 분포
정규분포 등이 이런 분포를 따른다. 이러한 유형은 최빈값, 중앙값, 평균이 모두 같다. 세상에 참 많은 것들이 정규분포를 따르기 때문에 통계학에 대한 센스가 없는 보통 사람들은 이것을 혼동한다. 예를 들어 본인 성적이 반에서 30명 중 15등이라면 자기 성적은 전체에서 평균이라고 생각하는 것이다. 물론 사실일수도 있고 실제로 사실인 경우도 많지만, 반드시 참이라는 보장은 어디에도 없다. 정규분포라는 가정부터가 틀렸을 수 있기 때문이다.