logo

データサイエンスにおける精度の過大評価 📂データサイエンス

データサイエンスにおける精度の過大評価

定義

分類問題において、陽性positive $P$ と陰性negative $N$ を区別するモデルが与えられたとする。正を陽と正しく判断した数を真陽性true Positive $TP$、陰を陰と正しく判断した数を真陰性true Negative $TN$、陽を誤って陰と判断した数を偽陰性false Negative $FN$、陰を誤って陽と判断した数を偽陽性false Positive $FP$ としよう。

次の数値をモデルの正確さaccuracyとする。 $$ \textrm{Accuracy} := {{ TP + TN } \over { P + N }} $$

説明

分類器の性能評価は、一般的に、全標本の数 $(P + N)$ の中で真陽性と真陰性の数を計算する式で得られる上述のように定義される正確さによってなされる。これは分類問題のパフォーマンス測定で最初に思い浮かべることができる常識的な指標だ。

しかし、正確さはデータの分布によってその性能が過大評価される問題があるかもしれない。例えば、標本の数が100万で、陽性が100個だけである状況を想像してみれば、データを見ずに適当に陰性とだけ予測しても、正確さが$99.99 \%$ に達する。パフォーマンスが良いか悪いかは分野ごとにも異なり、比較対象によっても変わるが、通常、万回に一回間違える分類モデルを悪いとは言わない。問題は、このモデルの深刻な欠陥を知っていることだが、ただ陰性と言い張るなら、それをモデルと呼ぶ理由も特にないだろう。

データが不均衡な代表的な例にはやはり天気予報がある。わが国では、一年中雨が降らないと予測しても$89 \%$ 程度の正確さが出せると言われている1。これらの数値は操作されていないものの、これを根拠に「天気予報は正確だ」と主張すれば、「正確さは過大評価されている」と逆風を受けるかもしれない。

そもそも二項分類を行うなら、正確さが$50 \%$ を下回ることはあまりない。不利な場合でも、単に陽陰判定を逆転させて、必ず$50 \%$ 以上の正確さを達成できる。正確さは間違いなく、専門家だけでなく一般大衆にも簡単に説明できる優れた指標であり、比較過程なしにモデルそのものの優れた点を訴えることができる。しかし、どんな場合でも万能というわけではなく、正確さだけがモデルのパフォーマンスを測る唯一の方法ではないということを念頭に置くべきだ。

参考


  1. 天気予報の実際の正確さが公開されると…みんな愕然「気象庁を信じて1億損した」 https://www.salgoonews.com/news/articleView.html?idxno=21129 ↩︎