logo

기초통계학에서 분산의 정의 📂데이터과학

기초통계학에서 분산의 정의

정의 1

nn개의 양적 데이터가 주어져 있다고 하자.

  1. 표본평균 x\overline{x}데이터의 차 (xxi)\left( \overline{x} - x_{i} \right) 를 편차deviation라 한다.
  2. 편차의 제곱의 합을 n1n-1으로 나눈 값인 s2s^{2} 를 표본분산variance of a sample이라 한다. s2:=(xix)2n1 s^{2} := {{ \sum \left( x_{i} - \overline{x} \right)^{2} } \over { n-1 }} 표본분산에 제곱근을 취한 s=s2s = \sqrt{s^{2}}표준편차standard Deviatoin라 한다.

설명

산포도데이터가 얼마나 퍼져있는지에 대한 양으로써, 가변성variability 혹은 확산dispersion 등으로 불리기도 한다. 분산은 그 산포도에 대한 측도measure of Variability로써, 평균 다음으로 중요한 통계량이기도 하다.

같이보기

처음 통계학을 접하게 되면 왜 굳이 계산하기 어렵게 제곱을 하며, nn 이 아니라 n1n-1 으로 나누는지 등 아니꼬운 점이 많다. 통계학을 본격적으로 전공한다면 학년이 올라가면서 (결코 쉽지 않은) 수리적 이론을 공부해서 그 질문들에 답할 수 있게 된다. 신입생이라면 그냥 그러려니 하고 넘어가도 좋다.


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p60~63. ↩︎