logo

箱ひげ図とは何か? 📂データサイエンス

箱ひげ図とは何か?

定義1

データの中央値median、第1四分位数first quartile、第3四分位数third quartile、最大値maximum、最小値minimumを以下のように表示した図を ボックスプロットbox plotという。

説明

  • 第3四分位数、中央値、第1四分位数をそれぞれ$Q3$、$Q2$、$Q1$と表す。
  • $Q3$と$Q1$の差をIQRInterQuartile Rangeという。
  • 最大値を$Q4$、最小値を$Q0$と表す。

真ん中の四角形をボックスbox、ボックスの上下の線をヒゲwhiskerというため、ボックス-ヒゲ図とも呼ばれる。ヒゲの端の値は最大値、最小値だけでなく、違う表示になることもある。データを$x$とする場合、最大値と最小値はそれぞれ $$ \begin{align*} Q4 &= \max( x \le \min(Q3 + 1.5\text{IQR}, \max(x)) \\ Q0 &= \min(\max(Q1 - 1.5\text{IQR}, \min(x)) \le x) \end{align*} $$ で置き換えられることがあり、外れ値outlierを考慮するためだ。

描き方

与えられたデータを以下のようだとする。 $$ x = \begin{bmatrix}9 & 8 & 7 & 7 & 7 & 6 & 6 & 5 & 3 & 2\end{bmatrix}^{T} $$ $x$の$Q3$、$Q2$、$Q1$を求める。 $$ \begin{align*} Q3 &= \text{third quartile} = 7.0 \\ Q2 &= \text{median} = 6.5 \\ Q1 &= \text{first quartile} = 5.25 \end{align*} $$ $Q3$、$Q2$、$Q1$を水平線で表示し、ボックスを描く。

$x$から外れ値を除いた後の最大値$Q4$、最小値$Q0$を求める。

$$ \min(Q3+1.5\text{IQR}, \max(x)) = \min(9.625, 9.0) = 9.0 \\ \implies Q4 = \max(x \le 9.0) = 9.0 $$

$$ \max(Q1-1.5\text{IQR}, \min(x)) = \max(2.625, 2.0) = 2.625 \\ \implies Q0 = \min( x \ge 2.625) = 3.0 $$

$Q4$、$Q0$を表示し、アウトライヤー$\text{outliers} \notin [Q0, Q4]$(ここでは$2$)を点で打つ。

プログラミング言語

特徴

上記の説明によると、ボックスで塗りつぶされた領域はデータの半分(下位75%の値から上位25%の値まで)が占める領域である。ヒストグラムほど詳細な情報を提供するわけではないが、ヒストグラムを上から垂直に見ているかのような情報を与える。そのため、単一のデータに対して描くときよりも、複数のデータに対して描くときの利点が大きい。4種類のデータの分布をヒストグラムで描いて比較しようとすると、4枚の図が必要で、重ねて見るのも難しいが、ボックスプロットであれば1枚で簡単に比較できる。