logo

양적 데이터의 히스토그램 📂데이터과학

양적 데이터의 히스토그램

정의 1 2

어려운 정의

양적 데이터의 도수분포로 만들어진 막대 그래프히스토그램histogram이라 한다.

쉬운 정의

숫자로 된 데이터를 일정 구간으로 나누어 그 횟수를 세고, 그 크기들을 높이로 가지는 막대 그래프를 히스토그램이라 한다.

설명

히스토그램은 과학 문헌에 없어서는 안 될 시각화 기법으로써, 주로 데이터에 불확정성이 포함되어 확률분포를 표현해야할 때 빠지지 않고 쓰인다. 마찬가지로 막대그래프까지는 일반 대중도 많이 접하지만, 히스토그램부터는 쉬운 정의에서 소개한 것처럼 최소한의 부연 설명이 필요한 경우가 왕왕 있다.

20220611_135801.png

위 스크린샷에서 A열은 주어진 양적데이터로 만들어진 히스토그램을 나타낸다. 보통의 막대 그래프는 범주가 잘 구분되도록 막대 사이를 떨어뜨려놓는 것에 비해 대개의 히스토그램은 막대 사이의 간격을 최대한 줄여서 확률분포의 시각화로써 기능한다.

주의사항: bin

히스토그램에서 한 구간의 크기를 bin이라 부른다. 양적 데이터니만큼 계급의 크기와 같은 개념이며, 이를 어떻게 잡느냐에 따라 히스토그램이 다르게 보일 수 있다. 극단적으로 위의 데이터에서 계급의 수를 다섯개에서 두개로 줄이면 다음과 같다.

20220611_135930.png

표본의 수가 13개밖에 안 된다지만, 처음 히스토그램에서는 9~10에 해당하는 높은 값들이 제대로 히스토그램에 반영된 것과 달리 계급 수를 2개로 줄이면 간략화를 너무 심하게 해서 본래의 확률분포를 전혀 나타내지 못하고 있다. 직관에 의존해서 확률분포를 빠르게 파악할 수 있는 것은 중요하지만, 너무 과신하면 이러한 주관성의 함정에 빠질 수 있음에 주의하자.

같이보기


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p25, 165. ↩︎

  2. 경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p29. ↩︎