logo

混同行列と感度、特異度 📂機械学習

混同行列と感度、特異度

定義

分類の問題でポジティブpositive$P$とネガティブnegative$N$を区別するモデルがあると仮定しよう。ポジティブをポジティブと判断した数をトゥルーポジティブtrue Positive$TP$、ネガティブをネガティブと判断した数をトゥルーネガティブtrue Negative$TN$、ポジティブをネガティブと間違えて判断した数をフォルスネガティブfalse Negative$FN$、ネガティブをポジティブと間違えて判断した数をフォルスポジティブfalse Positive$FP$としよう。

エラーマトリックス

20180521\_131719.png

分類の問題で、上記のような エラーマトリックスconfusion matrixをモデルを評価する指標として参照できる。

正解率

$$ \text{Accuracy} = {{TP + TN} \over { P + N }} $$ 上の表で、Pはポジティブ、Nはネガティブを表す。TPはポジティブと予測され実際にポジティブである場合、TNはネガティブと予測され実際にネガティブである場合だ。このTPとTNが比較的高いモデルを良いモデルと評価することは常識であり、妥当である。一方で、「正」があれば当然「誤」もある。誤分類率error rateは下記のように定義される。 $$ \text{Error Rate} = 1 - \text{Accuracy} = {{FP + FN} \over {N + P}} $$

精度

$$ \text{Precision} = {{TP } \over {TP + FP}} $$ 精度は真と予済まれるものの中で実際に真である物の割合だ。Accuracyと混同しないようにしよう。

感度

$$ \text{Sensitivity} = \text{True Positive Rate} = \text{Recall} = {{TP } \over { P }} $$ 感度はポジティブなものの中で真と予測されたものの割合で、再現率recallまたは真陽性率とも呼ばれる。

特異度

$$ \text{Specificity} = 1 - \text{False Positive Rate} = 1- {{FP } \over { N }} = {{TN } \over {N }} $$ 特異度はネガティブなものの中で偽と予測されたものの割合だ。

ここで、偽陽性率と真陽性率を軸として描かれる図をROC曲線という。

参照