logo

기초통계학에서 평균의 정의 📂데이터과학

기초통계학에서 평균의 정의

정의 1

$$ \overline{x} := {{ 1 } \over { n }} \sum_{k=1}^{n} x_{k} $$

$n$개의 양적 데이터가 주어져 있을 때, 그 값들을 모두 더하고 $n$ 으로 나눈 값 $\overline{x}$ 을 표본평균sample mean, 산술 평균arithmetic mean, 에버리지average 등으로 부른다.

설명

보편적으로 평균이 어떻게 데이터를 잘 요약하는지, 얼마나 효과적인지는 굳이 설명하지 않겠다. 학부 수준 이상의 통계학을 공부한다면 다음과 같은 질의를 이해하고 평균을 경계할 줄 알아야한다:

  • 평균은 언제나 믿을만한가? 당연히 아니다. 인터넷에 떠도는 것들 중 ‘노스캐롤라이나 대학에서 평균 연봉이 제일 높은 학과는 지리학과’라는 내용의 명짤이 있다.2 그런 재미있는 일화에서도 배울 수 있듯 평균은 이상치outlier에 취약하며 대표값으로 쓰기에 별로 적절하지 못할 때가 있다.
  • 특히 위험할 때가 있다면? 표본이 지나치게 적을 때, 이상치가 많을 때, 분포가 단봉형unimodel이 아닐 때 등이 있다. 드물지만 이론적으로 모평균이 존재하지 않음을 가정할 수 있는 상황도 있다.
  • 그럼에도 왜 가장 중요한가? 중심극한정리 때문에 그렇다. 그 어떤 분포에서 나온 랜덤 샘플이든 표본평균의 확률분포정규분포분포수렴한다는 강력한 정리로, 간단하지만 통계학의 근간을 이루는 통계량으로써 그 가치가 있다.

통계학을 공부한 사람이라면 평균이 언제 그 의미를 잃는지 알고 데이터를 예민하게 확인하는 습관을 들여야 한다. 말하자면 평균은 잘 사용하는 것만큼이나 쓰지 말아야할 타이밍을 아는 것도 엄청나게 중요한 것이다. 다음 트위터는 데이터를 무시했을 때 얼마나 평균이 무의미할 수 있는지 조금의 과장을 섞어 경고하고 있다:

고환수.jpg

같이보기


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p54. ↩︎

  2. 평균의 함정  ↩︎