logo

통계학의 정의 📂데이터과학

통계학의 정의

정의 1

통계학데이터수집하고 분석하며 나타내고 해석하며 결정을 하는 방법들의 집합이다.

  1. 기술통계학은 도표나 그래프와 요약 측도 등을 이용하여 데이터를 구성하고 나타내며 설명하는 방법들로 구성되어있다.
  2. 추론통계학은 표본으로부터 모집단에 대한 결정을 하거나 예측을 하는 방법들로 이루어져있다.

사설

아래는 교과서 밖의 이야기다.

나는 개인적으로 통계학을 "확률에 관한 이론을 적극적으로 사용하는 응용 수학의 한 분야"라 정의하고 싶다.

  • 이는 언뜻 통계학의 특징일 뿐 정의에는 부합하지 않아보일지도 모르겠지만, 실제로 우리가 전공 수준으로써 배우게 되는 통계학―특히 추론통계학을 지탱하는 이론은 바로 수리통계학이며 통계적인 추론statistical Inference이라 할만한 것들은 대개 확률론적인 논의를 근거로 한다.
  • 통계학과 직접적인 관계는 없지만, 확률론을 도입해서 미시세계에 대해 연구하는 물리이론을 통계역학statistical Mechanics이라 부르기도 한다.
  • 또한 2010년대 들어 머신러닝이, 그 중에서도 특히 딥러닝이 크게 발전하며 비정형 데이터에 대한 기술 수준이 가파르게 올라왔다. 그들은 고전적인 통계학이 잘 다루지 못하는 분야, 그러니까 자연어 처리, 컴퓨터 비전, 강화 학습 등의 분야에서 아주 좋은 결과들을 내고 있다. 애석하게도 그런 분야들을 통계학의 일부로 보는 관점은 거의 찾아보기 힘들다.

이러한 이유로 정의에서 언급된 통계학의 정의는 차라리 데이터 과학data Science의 정의라 부르는 게 더 올바를지도 모른다. 딥러닝이 유행하기 전에도 고전적인 머신러닝은 비모수적nonparametric인 방법으로써 통계학의 일부였으나, 이제와서 돌이켜보면 통계학만이 유일한 데이터과학이 아님을 인정하고 그 정체성을 확실히 할 때가 된 것이다.

그렇다고 슬퍼할 필요는 없다. 태생적으로 통계학은 딥러닝 등과 달리 그 이론적인 기반이 튼튼하며, 실제로 퍼포먼스 만능주의에 빠진 블랙박스 기법들에 실망하고 지친 사람이 늘어나고 있다. 데이터과학의 모든 것이었던 시절에 비하면 조금 왜소해졌지만 여전히 응용수학에서는 가장 덩치가 큰 것 역시 변함없다.


  1. 경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p2~3. ↩︎