logo

パリティプロット 📂データサイエンス

パリティプロット

定義

真値trueと予測値prediction順序対散布図として描いたものをパリティプロットparity plotと呼ぶ。

説明

実際の発音に近づけると[パリティプラット]になるかもしれないが、本記事では外来語の表記法に従ってパリティプロットと表記する。parityという単語は「一致」という意味を持つと考えてもよく、それならパリティプロットとは予測値が真値とどれだけよく一致しているかを視覚的に示している図といえる。

ここで真値とは理論的に計算された値、または実際に観測された値などを意味する。予測値は統計学、ディープラーニングなど一連の方法で真値を予測した値を指す。独立変数xix_{i}に対する真値がyiy_{i}であり、予測値がy^i\hat{y}_{i}としよう。するとパリティプロットは{(yi,y^i)}i=1n\left\{ (y_{i}, \hat{y}_{i}) \right\}_{i=1}^{n}または{(y^i,yi)}i=1n\left\{ (\hat{y}_{i}, y_{i}) \right\}_{i=1}^{n}を散布図として描いたものである。したがって、y=xy = xグラフに近い位置に点が多いほど、予測値が真値に近く、良い予測が行われたことになる。以下では左の図は予測値と真値が似ている場合、右の図は予測値が真値と似ていない場合を示している。

以下のような場合に有用である。

  • 独立変数が1つまたは2つの場合は線グラフヒートマップで描くことができるが、独立変数が複数ある場合は単に値(従属変数)だけを比較するパリティプロットの方が有利かもしれない。
  • 独立変数が量的変数ではなく質的変数の場合。
  • 真値と予測値の差のみが重要で、それに対応する独立変数の値そのものは重要でない場合。