데이터의 정의와 어원
개요
사실 현대사회에서 데이터에 대해 전혀 모르는 지식인은 없다. 전혀 관심없는 비전공자라 하더라도 ‘무언가에 대한 지식’ 혹은 ‘통신을 하기 위한 자원’ 같이 자료나 정보와 같은 유의어를 쉽게 떠올릴 수 있을 정도로 보편화, 대중화된 개념이 바로 데이터다. 아래의 서술들은 단지 데이터과학의 관점에서 조금이나마 더 엄밀하게 데이터를 정의하려는 시도에 지나지 않는다.
정의 1
- 변수variable란 시간이나 개인individual, 혹은 대상object에 대한 어떤 관점에 따라 바뀌는 특성catheteristic을 말한다.
- 변수가 측정되는 개인이나 대상을 실험 단위experimental Unit라 하고, 하나의 실험 단위에서 실제로 측정된 결과를 측정치measurement라 한다.
- 측정치의 집합을 데이터data라 한다.
설명
데이터의 어원 2
영단어 데이터는 ‘주어지거나 인정받은 사실’이라는 뜻이고, 라틴어에서 ‘준다’는 의미의 동사원형 ‘Do-‘의 과거분사로써 ‘주어진’이라는 뜻의 Datum에서 유래했다. Data는 바로 그 데이텀datum의 복수형이다.
아이러니하게도, 이러한 데이터의 어원은 위에서 특성이니 실험이니 하면서 어떻게든 정의해보려고 하던 것보다 더욱 정확하게 데이터의 본질을 가리키고 있다. 데이터과학의 세계에서 데이터란 이미 주어졌거나 앞으로 우리에게 주어지게 할 것으로, 새로운 발견이나 창조의 대상과 분명히 다른 성질을 가지고 있다.
말하자면 데이터란 어쩔 수 없이, 이미 그러한―다시 말해 주어진 것이다. 투박한 비유로써 오래가는 전구를 발명하는 상황을 상상해보자. 평균 수명이 100시간인 전구 A를 개량해서 전구 B를 개발한다면, 수명이 다할때까지 전구를 켜놓는 방식으로 각 전구 B(Object)의 수명을 측정할 수 있을 것이다. 이 측정치를 모아놓은 게 바로 전구 B의 수명 데이터인데, 그 수치들은 오로지 전구 B에 따라 주어진 것이지 우리가 전구 A의 데이터 자체를 어떻게 바꿔서 얻은 것들이 아니다.
변수와 실험?
변수變數는 한자어로 변하는 수라고 해서 숫자를 떠올리기 쉽고, 주로 이렇게 데이터를 쉽게 설명할 땐 숫자들이 등장하게 마련이지만 실제로 비정형 데이터에 대한 이해가 깊어진 현대 사회에선 굳이 데이터를 숫자나 범주로 한정짓지 않는다. 데이터의 종류로는 사진, 문서, 신호, 주가, 동영상, 네트워크 구조 등 인간이 인지할 수 있는 모든 것에 열려있다. 마찬가지로 측정치測定値 역시 ‘값 치’자를 써서 숫자처럼 보이지만 이를 굳이 수로 생각할 필요는 없다. 가능하면 영어 표현 그대로 Measurement라 부르는 것을 추천한다.
또 실험 단위에서 실험은 꼭 흰 가운을 입은 과학자들이 연구소에서 하는 것들만을 지칭하는 것이 아니다. 기초적인 확률론에서 사건이 일어나는 것을 ‘임의 시행’이라고 부르는 것처럼, 그냥 표현을 위한 표현으로 받아들여도 충분하다.
모집단과 표본
…이러한 정의에서, 현실적으로 많은 데이터는 모집단의 샘플이라는 것을 짐작할 수 있다. 한편 모집단의 영어 표현인 Population은 하필 통계와도 밀접하게 관계가 있는 인구라는 의미도 가지니 주의하도록 하자.
통계학의 컨셉은 기본적으로 “모집단에 대해서 알고싶지만 실제로 모집단을 모두 조사할 수 없으니 샘플로써 모집단에 대한 특성을 파악하는 것”, 다시 말해 데이터를 통해 관심 있는 대상의 본질을 추론하는 것이라 할 수 있다.
같이보기
수리통계학에서 샘플의 정의
학부 2~3학년 수준에서 접하는 수리통계학에서는 이 포스트에서 설명하는 샘플에 대해 수리적인 정의를 내리며, 실현realization이라고 하는 데이터의 다른 표현을 소개한다.
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p8. ↩︎