混同行列と感度、特異度

定義

分類の問題でポジティブ^positive$P$とネガティブ^negative$N$を区別するモデルがあると仮定しよう。ポジティブをポジティブと判断した数をトゥルーポジティブ^{true Positive}$TP$、ネガティブをネガティブと判断した数をトゥルーネガティブ^{true Negative}$TN$、ポジティブをネガティブと間違えて判断した数をフォルスネガティブ^{false Negative}$FN$、ネガティブをポジティブと間違えて判断した数をフォルスポジティブ^{false Positive}$FP$としよう。

エラーマトリックス

$20180521\_131719.png$

分類の問題で、上記のような エラーマトリックス^{confusion matrix}をモデルを評価する指標として参照できる。

正解率

$$ \text{Accuracy} = {{TP + TN} \over { P + N }} $$ 上の表で、Pはポジティブ、Nはネガティブを表す。TPはポジティブと予測され実際にポジティブである場合、TNはネガティブと予測され実際にネガティブである場合だ。このTPとTNが比較的高いモデルを良いモデルと評価することは常識であり、妥当である。一方で、「正」があれば当然「誤」もある。誤分類率^{error rate}は下記のように定義される。 $$ \text{Error Rate} = 1 - \text{Accuracy} = {{FP + FN} \over {N + P}} $$

精度

$$ \text{Precision} = {{TP } \over {TP + FP}} $$ 精度は真と予済まれるものの中で実際に真である物の割合だ。Accuracyと混同しないようにしよう。

感度

$$ \text{Sensitivity} = \text{True Positive Rate} = \text{Recall} = {{TP } \over { P }} $$ 感度はポジティブなものの中で真と予測されたものの割合で、再現率^recallまたは真陽性率とも呼ばれる。

特異度

$$ \text{Specificity} = 1 - \text{False Positive Rate} = 1- {{FP } \over { N }} = {{TN } \over {N }} $$ 特異度はネガティブなものの中で偽と予測されたものの割合だ。

ここで、偽陽性率と真陽性率を軸として描かれる図をROC曲線という。