통계학의 세가지 대표값: 최빈값, 중앙값, 평균

통계학의 세가지 대표값: 최빈값, 중앙값, 평균

Mode median mean

개요

대표값은 데이터를 설명하는 대표적인 값을 말한다. 수천 수만에 달하는 데이터가 있어도 일일이 다 살펴볼 게 아니라면 결국 중요한 것은 데이터가 무엇을 의미하느냐고, 대표값은 이를 효과적으로 요약한다. 그 중 가장 자주 쓰이는 세가지 대표값으로써 최빈값, 중앙값, 평균이 있다.

  • (0) 최빈값: 표본에서 가장 자주 발생한 값
  • (1) 중앙값: 표본에서 중앙에 위치하는 값 혹은 그 이하가 표본의 절반을 차지하는 값
  • (2) 평균: 표본을 모두 더한 후 표본의 수로 나눈 값

예시

예를 들어 주사위를 $10$ 번 굴려 $1,1,2,3,3,4,6,6,6,6$ 이 나왔다고 하자. 그러면 최빈값은 가장 많이 등장한 $6$, 중앙값은 $3$ 과 $4$ 사이의 $\displaystyle {{3 + 4} \over {2} } = 3.5$, 평균은 $\displaystyle {{38} \over {10}} = 3.8$ 으로 구해진다.

  • (0): 최빈값은 지지하는 정당이나 좋아하는 숫자 등 수가 없거나 수가 있더라도 대소관계가 의미 없는 질적 자료에서 많이 쓰인다.
  • (1): 중앙값은 소득이나 성적처럼 우열을 가릴 수 있는 등 순위가 중요한 중요한 자료에서 많이 쓰인다.
  • (2): 평균은 알다시피 가장 즐겨쓰는 대표값이지만 이상치에 민감하다는 단점이 있어 의외로 주의를 요한다. 평균이 데이터를 잘 설명하지 못하는 경우가 비단 소표본에서만 일어나는 것이 아니다. 실제로 각종 경제 지표, 특히 국가 규모의 데이터를 다룰때는 소득 상위 10%, 저소득층과 같이 분위수를 쓰는 경우가 많다. 소득 불균형이 커질수록 평균은 의미를 잃어가며, 중앙값과 평균을 구분할 수 있는 분별력이 필요해진다.

왜 하필 이러한 통계량을 중요하게 생각하는지 직관적으로 납득이 된다면 다행이고, 그렇지 못하다면 수리적 성질의 증명과정을 살펴보는 게 좋다. 이는 이 포스트에서 왜 넘버링을 1,2,3 이 아니라 0,1,2 로 했는지와도 연결된다.

정의

확률변수 $X$ 의 확률밀도함수를 $f(x)$ 라고 하자.

  • (0’) 최빈값: $\argmax f(x)$
  • (1’) 중앙값: $\displaystyle \arg \int_{- \infty}^{x} f(t) dt = {{1} \over {2}}$
  • (2’) 평균: $\displaystyle \int_{-\infty}^{\infty} x f(x) dx$

설명

한편 이러한 대표값은 표본이 아니라 확률분포에서도 정의될 수 있다. 어느정도 통계에 관한 수학이 익숙하다면 위의 수식만으로 정의를 이해해보는 것이 좋다.

  • (0’): 최빈값은 한마디로 확률밀도함수 $f(x)$ 의 값이 최대가 되도록 하는 $x$ 로써 구해진다.
  • (1’): 중앙값은 적분해서 정확히 그 값이 $0.5$ 가 되도록 하는 $x$ 로써 구해진다.
  • (2’): 평균은 분포의 기대값으로 구해진다.

아래의 그림들과 함께 대표값들이 대략 어디쯤 위치하는지 살펴보자. 빨간색 화살표는 최빈값, 파란색 화살표는 중앙값, 녹색 화살표는 평균을 의미한다.

단봉형이 아닌 분포

20181031\_172502.png

단봉Unimodal이 아니라는 것은 위와 같이 극대값이 여럿 존재하는 분포를 말한다. 통계학이나 확률론에선 별로 관심의 대상이 아니지만 대학교 시험 결과는 이러한 분포를 많이 따른다. 한 수업이라고 다 같이 최선을 다해 경쟁하는 게 아니라 공부할 사람은 하고 놀 사람은 놀 때 이런 모양이 된다. 중앙값과 평균은 딱히 일관성이 없으며 최빈값은 가장 높은 극대점에서 형성된다.

단봉이면서 오른쪽으로 꼬리가 긴 분포

20181031\_172508.png

지수분포, 카이제곱분포, F등이 이런 분포를 따른다. 이러한 유형은 최빈값$\le$중앙값$\le$평균값을 따른다.

단봉이면서 대칭인 분포

20181031\_172515.png

정규분포 등이 이런 분포를 따른다. 이러한 유형은 최빈값, 중앙값, 평균이 모두 같다. 세상에 참 많은 것들이 정규분포를 따르기 때문에 통계학에 대한 센스가 없는 보통 사람들은 이것을 혼동한다. 예를 들어 본인 성적이 반에서 30명 중 15등이라면 자기 성적은 전체에서 평균이라고 생각하는 것이다. 물론 사실일수도 있고 실제로 사실인 경우도 많지만, 반드시 참이라는 보장은 어디에도 없다. 정규분포라는 가정부터가 틀렸을 수 있기 때문이다.

같이보기

댓글