logo

統計学の定義 📂データサイエンス

統計学の定義

定義 1

統計学は、データ収集し、分析し、表示し、解釈し、決定する方法の集合だ。

  1. 記述統計学は、図表やグラフと要約尺度などを使用してデータを構成し、表示し、説明する方法で構成されている。
  2. 推測統計学は、標本から母集団についての決定をするまたは予測をする方法で構成されている。

私見

以下は教科書外の話だ。

個人的に統計学を「確率に関する理論を積極的に使用する応用数学の一分野」と定義したい。

  • これは一見統計学の特徴に過ぎないかもしれないが、実際に専攻レベルで学ぶ統計学―特に推測統計学を支える理論は、数理統計学であり、統計的な推論statistical Inferenceとするものは大体確率論的な議論に基づいている。
  • 統計学と直接的な関連はないが、確率論を導入して微細世界について研究する物理理論も統計力学statistical Mechanicsと呼ばれている。
  • また、2010年代に入って機械学習、特にディープラーニングが大きく発展し、非構造データに対する技術水準が急速に上がった。彼らは、古典的な統計学がうまく扱えなかった分野、つまり自然言語処理、コンピュータビジョン、強化学習などの分野で非常に良い結果を出している。残念ながら、そのような分野を統計学の一部と見なす見解はほとんど見られない。

これらの理由から、定義で言及された統計学の定義はむしろデータサイエンスdata Scienceの定義と呼ぶ方が正確かもしれない。ディープラーニングが流行する前にも、従来の機械学習は非パラメトリックnonparametricな方法として統計学の一部だったが、今となっては統計学が唯一のデータサイエンスではないことを認め、そのアイデンティティを確立する時が来ている。

だが、悲しむ必要はない。生まれながらに統計学はディープラーニングなどとは異なり、その理論的基盤がしっかりしており、実際にパフォーマンス万能主義に失望して疲れた人が増えている。データサイエンスの全てだった時代に比べると少し小さくなったかもしれないが、応用数学の中でも依然として最も大きいものは変わらない。


  1. 慶北大学校統計学科。(2008)。エクセルを使った統計学:p2~3。 ↩︎