logo

기초통계학에서 분산의 정의 📂데이터과학

기초통계학에서 분산의 정의

정의 1

$n$개의 양적 데이터가 주어져 있다고 하자.

  1. 표본평균 $\overline{x}$ 과 데이터의 차 $\left( \overline{x} - x_{i} \right)$ 를 편차deviation라 한다.
  2. 편차의 제곱의 합을 $n-1$으로 나눈 값인 $s^{2}$ 를 표본분산variance of a Sample이라 한다. $$ s^{2} := {{ \sum \left( x_{i} - \overline{x} \right)^{2} } \over { n-1 }} $$ 표본분산에 제곱근을 취한 $s = \sqrt{s^{2}}$ 를 표준편차standard Deviatoin라 한다.

설명

산포도데이터가 얼마나 퍼져있는지에 대한 양으로써, 가변성variability 혹은 확산dispersion 등으로 불리기도 한다. 분산은 그 산포도에 대한 측도measure of Variability로써, 평균 다음으로 중요한 통계량이기도 하다.

같이보기

처음 통계학을 접하게 되면 왜 굳이 계산하기 어렵게 제곱을 하며, $n$ 이 아니라 $n-1$ 으로 나누는지 등 아니꼬운 점이 많다. 통계학을 본격적으로 전공한다면 학년이 올라가면서 (결코 쉽지 않은) 수리적 이론을 공부해서 그 질문들에 답할 수 있게 된다. 신입생이라면 그냥 그러려니 하고 넘어가도 좋다.


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p60~63. ↩︎