오류행렬과 민감도, 특이도

오류행렬과 민감도, 특이도

오류행렬

20180521\_131719.png

분류 문제에서 모형을 평가하는 지표로써 위와 같은 오류행렬Confusion Matrix을 참고할 수 있다.

정분류율Accuracy

$$ \displaystyle \text{Accuracy} = {{TP + TN} \over { P + N }} $$ 위 표에서 P는 양성, N은 음성을 나타낸다. TP는 양성으로 예측되었고 실제로 양성인 경우, TN은 음성으로 예측되었고 실제로 음성인 경우다. 이 TP와 TN이 상대적으로 높은 모형을 좋은 모형이라고 평가하는 것은 상식적이고 타당하다.

오분류율Error Rate

$$ \text{Error Rate} = 1 - \text{Accuracy} = {{FP + FN} \over {N + P}} $$ ‘정’이 있으면 당연히 ‘오’도 있다.

정확도Precision

$$ \text{Precision} = {{TP } \over {TP + FP}} $$ 정확도란 참으로 예측된 것 중 실제로 참인 것들의 비율이다. Accuracy와 헷갈리지 않도록 하자.

민감도Sensitivity

$$ \text{Sensitivity} = \text{True Positive Rate} = \text{Recall} = {{TP } \over { P }} $$ 민감도란 양성인 것 중 참으로 예측된 것들의 비율로, 재현도Recall 혹은 True Positive Rate 라고도 불린다.

특이도Specificity

$$ \text{Specificity} = 1 - \text{False Positive Rate} = 1- {{FP } \over { N }} = {{TN } \over {N }} $$ 특이도란 거짓인 것 중 거짓으로 예측된 것들의 비율이다.

여기서 False Positive Rate와 True Positive Rate를 각각 축으로 두고 그린 그림을 ROC 곡선이라고 한다.

댓글