logo

箱ひげ図とは何か? 📂データサイエンス

箱ひげ図とは何か?

定義1

データの中央値median、第1四分位数first quartile、第3四分位数third quartile、最大値maximum、最小値minimumを以下のように表示した図を ボックスプロットbox plotという。

説明

  • 第3四分位数、中央値、第1四分位数をそれぞれQ3Q3Q2Q2Q1Q1と表す。
  • Q3Q3Q1Q1の差をIQRInterQuartile Rangeという。
  • 最大値をQ4Q4、最小値をQ0Q0と表す。

真ん中の四角形をボックスbox、ボックスの上下の線をヒゲwhiskerというため、ボックス-ヒゲ図とも呼ばれる。ヒゲの端の値は最大値、最小値だけでなく、違う表示になることもある。データをxxとする場合、最大値と最小値はそれぞれ Q4=max(xmin(Q3+1.5IQR,max(x))Q0=min(max(Q11.5IQR,min(x))x) \begin{align*} Q4 &= \max( x \le \min(Q3 + 1.5\text{IQR}, \max(x)) \\ Q0 &= \min(\max(Q1 - 1.5\text{IQR}, \min(x)) \le x) \end{align*} で置き換えられることがあり、外れ値outlierを考慮するためだ。

描き方

与えられたデータを以下のようだとする。 x=[9877766532]T x = \begin{bmatrix}9 & 8 & 7 & 7 & 7 & 6 & 6 & 5 & 3 & 2\end{bmatrix}^{T} xxQ3Q3Q2Q2Q1Q1を求める。 Q3=third quartile=7.0Q2=median=6.5Q1=first quartile=5.25 \begin{align*} Q3 &= \text{third quartile} = 7.0 \\ Q2 &= \text{median} = 6.5 \\ Q1 &= \text{first quartile} = 5.25 \end{align*} Q3Q3Q2Q2Q1Q1を水平線で表示し、ボックスを描く。

xxから外れ値を除いた後の最大値Q4Q4、最小値Q0Q0を求める。

min(Q3+1.5IQR,max(x))=min(9.625,9.0)=9.0    Q4=max(x9.0)=9.0 \min(Q3+1.5\text{IQR}, \max(x)) = \min(9.625, 9.0) = 9.0 \\ \implies Q4 = \max(x \le 9.0) = 9.0

max(Q11.5IQR,min(x))=max(2.625,2.0)=2.625    Q0=min(x2.625)=3.0 \max(Q1-1.5\text{IQR}, \min(x)) = \max(2.625, 2.0) = 2.625 \\ \implies Q0 = \min( x \ge 2.625) = 3.0

Q4Q4Q0Q0を表示し、アウトライヤーoutliers[Q0,Q4]\text{outliers} \notin [Q0, Q4](ここでは22)を点で打つ。

プログラミング言語

特徴

上記の説明によると、ボックスで塗りつぶされた領域はデータの半分(下位75%の値から上位25%の値まで)が占める領域である。ヒストグラムほど詳細な情報を提供するわけではないが、ヒストグラムを上から垂直に見ているかのような情報を与える。そのため、単一のデータに対して描くときよりも、複数のデータに対して描くときの利点が大きい。4種類のデータの分布をヒストグラムで描いて比較しようとすると、4枚の図が必要で、重ねて見るのも難しいが、ボックスプロットであれば1枚で簡単に比較できる。