箱ひげ図とは何か?
📂データサイエンス箱ひげ図とは何か?
定義
データの中央値median、第1四分位数first quartile、第3四分位数third quartile、最大値maximum、最小値minimumを以下のように表示した図を ボックスプロットbox plotという。

説明
- 第3四分位数、中央値、第1四分位数をそれぞれQ3、Q2、Q1と表す。
- Q3とQ1の差をIQRInterQuartile Rangeという。
- 最大値をQ4、最小値をQ0と表す。
真ん中の四角形をボックスbox、ボックスの上下の線をヒゲwhiskerというため、ボックス-ヒゲ図とも呼ばれる。ヒゲの端の値は最大値、最小値だけでなく、違う表示になることもある。データをxとする場合、最大値と最小値はそれぞれ
Q4Q0=max(x≤min(Q3+1.5IQR,max(x))=min(max(Q1−1.5IQR,min(x))≤x)
で置き換えられることがあり、外れ値outlierを考慮するためだ。
描き方
与えられたデータを以下のようだとする。
x=[9877766532]T
xのQ3、Q2、Q1を求める。
Q3Q2Q1=third quartile=7.0=median=6.5=first quartile=5.25
Q3、Q2、Q1を水平線で表示し、ボックスを描く。

xから外れ値を除いた後の最大値Q4、最小値Q0を求める。
min(Q3+1.5IQR,max(x))=min(9.625,9.0)=9.0⟹Q4=max(x≤9.0)=9.0
max(Q1−1.5IQR,min(x))=max(2.625,2.0)=2.625⟹Q0=min(x≥2.625)=3.0
Q4、Q0を表示し、アウトライヤーoutliers∈/[Q0,Q4](ここでは2)を点で打つ。

プログラミング言語
特徴
上記の説明によると、ボックスで塗りつぶされた領域はデータの半分(下位75%の値から上位25%の値まで)が占める領域である。ヒストグラムほど詳細な情報を提供するわけではないが、ヒストグラムを上から垂直に見ているかのような情報を与える。そのため、単一のデータに対して描くときよりも、複数のデータに対して描くときの利点が大きい。4種類のデータの分布をヒストグラムで描いて比較しようとすると、4枚の図が必要で、重ねて見るのも難しいが、ボックスプロットであれば1枚で簡単に比較できる。
