통계학의 세가지 대표값: 최빈값, 중앙값, 평균

통계학의 세가지 대표값: 최빈값, 중앙값, 평균

개요

대표값은 데이터를 설명하는 대표적인 값을 말한다. 수천 수만에 달하는 데이터가 있어도 일일이 다 살펴볼 게 아니라면 결국 중요한 것은 데이터가 무엇을 의미하느냐고, 대표값은 이를 효과적으로 요약한다. 그 중 가장 자주 쓰이는 세가지 대표값으로써 최빈값, 중앙값, 평균이 있다.

예시

예를 들어 주사위를 $10$ 번 굴려 $1,1,2,3,3,4,6,6,6,6$ 이 나왔다고 하자. 그러면 최빈값은 가장 많이 등장한 $6$, 중앙값은 $3$ 과 $4$ 사이의 $\displaystyle {{3 + 4} \over {2} } = 3.5$, 평균은 $\displaystyle {{38} \over {10}} = 3.8$ 으로 구해진다.

왜 하필 이러한 통계량을 중요하게 생각하는지 직관적으로 납득이 된다면 다행이고, 그렇지 못하다면 수리적 성질의 증명과정을 살펴보는 게 좋다. 이는 이 포스트에서 왜 넘버링을 1,2,3 이 아니라 0,1,2 로 했는지와도 연결된다.

정의

확률변수 $X$ 의 확률밀도함수를 $f(x)$ 라고 하자.

설명

한편 이러한 대표값은 표본이 아니라 확률분포에서도 정의될 수 있다. 어느정도 통계에 관한 수학이 익숙하다면 위의 수식만으로 정의를 이해해보는 것이 좋다.

아래의 그림들과 함께 대표값들이 대략 어디쯤 위치하는지 살펴보자. 빨간색 화살표는 최빈값, 파란색 화살표는 중앙값, 녹색 화살표는 평균을 의미한다.

단봉형이 아닌 분포

20181031\_172502.png

단봉Unimodal이 아니라는 것은 위와 같이 극대값이 여럿 존재하는 분포를 말한다. 통계학이나 확률론에선 별로 관심의 대상이 아니지만 대학교 시험 결과는 이러한 분포를 많이 따른다. 한 수업이라고 다 같이 최선을 다해 경쟁하는 게 아니라 공부할 사람은 하고 놀 사람은 놀 때 이런 모양이 된다. 중앙값과 평균은 딱히 일관성이 없으며 최빈값은 가장 높은 극대점에서 형성된다.

단봉이면서 오른쪽으로 꼬리가 긴 분포

20181031\_172508.png

지수분포, 카이제곱분포, F등이 이런 분포를 따른다. 이러한 유형은 최빈값$\le$중앙값$\le$평균값을 따른다.

단봉이면서 대칭인 분포

20181031\_172515.png

정규분포 등이 이런 분포를 따른다. 이러한 유형은 최빈값, 중앙값, 평균이 모두 같다. 세상에 참 많은 것들이 정규분포를 따르기 때문에 통계학에 대한 센스가 없는 보통 사람들은 이것을 혼동한다. 예를 들어 본인 성적이 반에서 30명 중 15등이라면 자기 성적은 전체에서 평균이라고 생각하는 것이다. 물론 사실일수도 있고 실제로 사실인 경우도 많지만, 반드시 참이라는 보장은 어디에도 없다. 정규분포라는 가정부터가 틀렸을 수 있기 때문이다.

같이보기

댓글