logo

質的データの棒グラフ 📂データサイエンス

質的データの棒グラフ

定義 1

20220606_224147.png

質的データの度数分布が与えられているとしよう。

  1. 棒の高さで度数を示すグラフをバーチャートbar Chartという。
  2. 弧の面積で相対度数を示すグラフをパイチャートpie Chartという。

説明

二つのチャートの違い

그림1.png

그림2.png

形が違うのは一目瞭然だが、二つのグラフの用途や長所・短所も異なる。

  • パイチャートはバーチャートと違ってパーセンテージ、つまり全体から占める割合を表現する時、非常に効果的だ。これは本来の形状から来る違いで、円の内角は正確に360度に定められているが、棒にはこのような制約がないため、一目で「全体」が見えないからだ。
  • パイチャートは色や形に依存する傾向が強いのに対し、バーチャートは単色だけでも表現しやすい。そのため、グラフを装飾したり強調したりする時、バーチャートの方が遥かに便利だ。
  • バーチャートは水平線を引いてみることで大小を比較したり序列を確認するのが容易だ。

愚かな質問に聞こえるかもしれないが、「二つのチャートのどちらが良いか」と聞かれたら、通常はバーグラフがより良い。先に述べたように、全体から占める割合が極端な時、つまり「詳細で客観的な情報を伝える」よりも既に「あるカテゴリーが大多数/極少数である」という結論を出して、そう主張したい時のみ円グラフが有利である。その他のほとんどの場合では、バーグラフが良い。

ナイチンゲールのローズダイアグラム

英国の看護師フローレンス・ナイチンゲールは、戦争中の英国軍の死亡原因を当時の貧しい「衛生」と関連付けた。課題は、①銃弾よりも細菌感染の方がより致命的という常識がなく、②まだ統計学の基盤が不十分だった時代に、それを上層部に理解してもらえるようにうまく説明することだった。二つの分野で時代を先取りした彼女は、ローズダイアグラムを考案し、英国政府を粘り強く説得する。

maharam-stories_web-01.jpg

グラフは、一年を12のカテゴリに分け、最も外側の青色を感染症で死亡した数、中央の濃色を致命傷で死亡した数、最も内側の赤色をその他の理由で死亡した数として塗り分けた。このグラフを見て感染が最も大きな問題であるとわからない人は愚かだ。2 3

今見ると、バーチャートパイチャートが混ざった形式で、これを見て実際に衛生環境を改善した英国は、英国軍の死亡率を大幅に減少させることに成功する。この功績により、ナイチンゲールは看護学の大母と同時に[記述統計学]の先駆者として認められ、専門家でない人々に統計分析をわかりやすく伝えることの重要性を後世の学び手に無数に言及されている。

注意点: 3種類の嘘

「トム・ソーヤーの冒険」の著者マーク・トウェインが残した格言がある。

There are three kinds of lies: lies, damned lies, and statistics.

翻訳すると、「世には3種類の嘘がある。嘘、とんでもない嘘、そして統計だ。」という意味だ。

그림3.jpg

バーチャートとパイチャートは専門家でない人々、一般大衆にも理解しやすいグラフであり、歴史的に多くの誤った宣伝に利用されてきた。4 上の図は、万年筆の高さで数値の差を表しているように見えて、ぱっと見でバーグラフのようだが、実際によく見ると高さだけでなく幅も大きくなっており、最も左の万年筆が占める最終的な面積は、その数値差に比べてずっと誇張されている。数字を省略していないし、高さを歪めていないが、慎重に検討しない一般大衆は、知らず知らずのうちに何らかの悪意のある操作を受け入れてしまう可能性がある。

こんなことはやめよう:

参考にすること