logo

질적 데이터의 막대 그래프 📂데이터과학

질적 데이터의 막대 그래프

정의 1

20220606_224147.png

질적 데이터의 도수분포가 주어져 있다고 하자.

  1. 막대의 높이가 도수를 나타내는 그래프를 바 차트bar Chart라 한다.
  2. 원호의 넓이가 상대도수를 나타내는 그래프를 파이 차트pie Chart라 한다.

설명

두 차트의 차이점

그림1.png

그림2.png

물론 한 눈에 보아도 모양이 다르지만 두 그래프의 용도와 장단점이 다르다.

  • 파이 차트는 바차트와 달리 퍼센티지, 즉 전체에서 차지하는 비중을 표현할 때 아주 효과적이다. 이는 태생적인 형태에서 오는 차이인데, 원의 내각은 정확히 360도로 정해져있지만 막대에는 이러한 제약이 없어서 한눈에 ‘전체’가 보이지 않기 때문이다.
  • 파이 차트는 색이나 모양에 의존하는 경향이 강한 것에 비해, 바 차트는 단색만으로도 표현하기 쉽다. 그래서 그래프를 꾸미거나 강조하려면 바 차트가 훨씬 편하다.
  • 바 차트는 수평선을 대어봄으로써 대소를 비교하거나 서열을 확인하기 용이하다.

그래서 어리석은 질문 같겠지만, ‘두 차트 중에 어떤 게 좋은가’라고 묻는다면 보통 막대 그래프가 더 좋다. 언급한 것처럼 전체에서 차지하는 비중이 극단적일 때, 그러니까 ‘세부적이고 객관적인 정보를 전달한다’기 보단 이미 ‘어떤 부류가 대다수/극소수다’라는 결론을 지어놓고 그렇게 주장하고 싶을 때만 원 그래프가 유리하다. 그 외 대부분의 경우에는 막대 그래프가 낫다.

나이팅게일의 장미 그림

영국의 간호사 플로렌스 나이팅게일Florence Nightingale은 전쟁 중 영국군 사망 원인을 당시의 열악한 ‘위생’과 연관지었다. 문제는 그러한 주장을 높으신 분들이 이해할 수 있도록 잘 설명을 해야한다는 것이었는데, ① 총탄보다도 세균 감염이 더 치명적이라는 상식도 없고 ② 아직 통계학의 기틀이 미비했던 시절이었다. 무려 두 분야에서 시대를 앞서갔던 그녀는 장미 그림rose Diagram이라는 걸 고안하고 끈질기게 영국 정부를 설득한다.

maharam-stories_web-01.jpg

그림은 일년 열두달로 범주를 나누고 가장 바깥쪽 푸른색을 감염병으로 사망한 수, 가운데 진한색을 치명상으로 사망한 수, 가장 안쪽 붉은색을 기타 이유로 사망한 수로 채색했다. 바보가 아닌 이상에야 이 그림을 보고 감염이 가장 문제라는 걸 모를 수가 없다2 3.

지금 와서 보면 바 차트파이 차트가 섞인 형태로, 이걸 보고 실제로 보건위생을 개선시킨 영국은 영국군의 사망률을 크게 감소시키는데 성공한다. 이러한 공로로 나이팅게일은 간호학의 대모인 동시에 기술통계학의 선구자로 인정받으며, 현대의 후학들에게도 ‘통계적 분석을 비전공자에게 쉽게 전달하는 게 중요한 이유’로 수없이 언급된다.

주의사항: 세 종류의 거짓말

‘톰 소여의 모험’의 저자 마크 트웨인samuel Langhorne Clemens이 남긴 격언이 있다.

There are three kinds of lies: lies, damned lies, and statistics.

번역하자면 ‘세상엔 세 종류의 거짓말이 있는데 거짓말, 개쌉구라, 그리고 통계다.’ 정도다.

그림3.jpg

바 차트와 파이 차트는 비전공자, 일반대중도 쉽게 이해할 수 있는 그래프기 때문에 역사적으로 수많은 거짓선동에 이용되어왔다4. 위 그림은 만년필의 높이로 수의 차이를 나타낸 것처럼 보여서 언뜻 막대 그래프로 보이지만, 실제로 그림을 잘 살펴보면 높이와 함께 너비도 커져서 제일 왼쪽 만년필이 차지하는 최종적인 넓이는 그 숫자 차이에 비해 훨씬 과장되어있다. 숫자를 누락한 것은 아니고 높이를 왜곡하지도 않았지만, 날 선 감각으로 검토하지 않는 일반 대중들은 부지불식간에 어떤 악의적인 조작을 수용해버릴 수 있다.

이러지 말자:

같이보기