データの定義と語源
概要
現代社会では、データについて全く知らない知識人はいない。全く関心がない非専門家でも、「何かについての知識」や「通信するための資源」のようなデータや情報といった類義語を容易に思い浮かべることができるほど、データという概念は普遍化し、大衆化された。以下の記述はほんの少しでも、データサイエンスの観点から、データをより厳密に定義しようとする試みに過ぎない。
定義 1
- 変数variableは、時間や個人individual、または対象objectによって変わる特性characteristicを指す。
- 変数が測定される個人や対象を 実験単位experimental Unitといい、実験単位から実際に測定された結果を 測定値measurementという。
- 測定値の集合を データdataという。
説明
データの語源 2
英語のデータは「与えられた、または認められた事実」を意味し、ラテン語で「与える」という意味の動詞「Do-」の過去分詞であるDatumから派生しており、「与えられた」という意味を持つ。Dataは、そのDatumの複数形にあたる。
皮肉にも、このようなデータの語源は、上述のように、何か特徴であるとか、実験をしながらどうにか定義しようとしていたことよりも、より正確にデータの本質を指している。データサイエンスの世界では、データはすでに与えられたもの、またはこれから我々に与えられるべきものであり、新しい発見や創造の対象とは明らかに異なる属性を持つ。
つまり、データはどうしようもなく、すなわち 与えられたものだ。粗野な比喩として、長持ちする電球を発明する状況を想像してみよう。平均寿命が100時間の電球Aから電球Bを改良した場合、各電球B(Object)の寿命を測定することができるだろう。この測定値を集めたものがまさに電球Bの寿命データであり、それらの数値は電球Bによって与えられたものであって、電球Aのデータ自体をどうにか変えて得たものではない。
変数と実験?
変数變數は、字のごとく変わる数値として考えがちで、データを簡単に説明するときにはよく数字が登場するけれど、非構造データに対する理解が深まった現代社会では、データを数字やカテゴリーに限定する必要はない。データの種類には、写真、文書、信号、株価、動画、ネットワーク構造など、人が認識できるすべてが対象である。同様に、測定値測定値も、「値」という文字を使うために数字のように見えるかもしれないが、そのように数値として考える必要はない。可能な限り、英語の表現Measurementをそのまま使うことをお勧めする。
また、実験単位の実験は、白衣を着た科学者たちが研究所で行うものだけを指すわけではない。基礎確率論で事象が起こることを「任意の試行」と呼ぶように、表現のための表現として受け入れても十分だ。
母集団と標本
…このような定義から、現実的には多くのデータが母集団のサンプルであることが推測できる。一方で、母集団の英語表現Populationは、統計学とも密接に関係している人口という意味も持っているので注意してほしい。
統計学のコンセプトは基本的に「母集団について知りたいが、実際には母集団をすべて調査することはできないので、サンプルを通じて母集団の特性を把握すること」、つまり、データを通じて関心ある対象の本質を推測することと言える。
参考までに
数理統計学におけるサンプルの定義
学部2~3年生レベルで触れる数理統計学では、このポストで説明するサンプルについて数理的な定義を下し、データの別の表現である実現realizationを紹介している。
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p8. ↩︎