logo

量的データのヒストグラム 📂データサイエンス

量的データのヒストグラム

定義 1 2

難しい定義

定量データの度数分布で作成された棒グラフヒストグラムhistogramと言う。

簡単な定義

数字で表されたデータを一定の区間に分け、その回数を数え、その大きさを棒グラフの高さとして表示する棒グラフをヒストグラムと言う。

説明

ヒストグラムは、科学文献に欠かせない視覚化技法であり、データに不確実性が含まれている場合に確率分布を表すために用いられる。棒グラフまでは一般的に多くの人が接するが、ヒストグラムは簡単な定義で紹介したように、最小限の補足説明が必要な場合がしばしばある。

20220611_135801.png

上のスクリーンショットでは、A列は与えられた定量データで作成されたヒストグラムを示している。通常の棒グラフはカテゴリーをはっきり分けるため棒の間を空けるが、ほとんどのヒストグラムは棒の間隔をできるだけ減らし、確率分布の視覚表現として機能する。

注意: Bin

ヒストグラムでは、一つの区間の大きさをビンbinと呼ぶ。定量データであるため、階級の大きさと似ている概念であり、どのようにビンを設定するかによってヒストグラムの見え方が大きく変わることがある。例えば上のデータで階級の数を5つから2つに減らすと、次のようになる。

20220611_135930.png

サンプルの数がたった13個でも、階級の数を大幅に減らすと最初のヒストグラムで適切に反映された9〜10に対応する高い値が、大幅に単純化されすぎて本来の確率分布をまったく表していない。直感に頼って確率分布を迅速に把握することは重要だが、過信しすぎるとそのような主観性の罠に陥ることに注意しよう。

一緒に見る


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p25, 165. ↩︎

  2. 경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p29. ↩︎