logo

데이터과학에서 정확도가 과대평가 되는 상황 📂데이터과학

데이터과학에서 정확도가 과대평가 되는 상황

정의

양성positive $P$ 와 음성negative $N$ 을 구분하는 분류문제에서 양성과 음성을 판정하는 모델이 주어져 있다고 하자. 양을 양으로 판정한 수를 참양성true Positive $TP$, 음을 음으로 판정한 수를 참음성true Negative $TN$, 양을 음으로 잘못 판정한 수를 위음성false Negative $FN$, 음을 양으로 잘못 판정한 수를 위양성false Positive $FP$ 라 하자.

다음의 수치를 모델의 정확도accuracy라 한다. $$ \textrm{Accuracy} := {{ TP + TN } \over { P + N }} $$

설명

분류기의 성능을 평가하는 방법은 보편적으로 위와 같이 정의되는 정확도accuracy로써, 전체 표본의 수 $(P + N)$ 중에서 참양성과 참음성의 수를 계산하는 식으로 얻어진다. 이는 분류문제의 퍼포먼스 측정에서 가장 먼저 떠올릴 수 있는 상식적 지표다.

그러나 정확도는 데이터의 분포에 따라 그 성능이 과대평가되는 문제가 있을 수 있다. 예를 들어 표본의 수가 100만이고 양성이 100개 밖에 되지 않는 상황을 상상해보면, 데이터를 보지 않고 대충 음성으로 다 찍어도 정확도가 $99.99 \%$ 에 달하게 된다. 퍼포먼스가 좋다 나쁘다를 말하는 건 분야마다도 다르고 비교 대상에 따라도 달라지는 법이지만, 보편적으로 만 번에 한 번 틀리는 분류 모델을 안 좋다고 말하진 않는다. 문제는 우리가 이 모델의 심각한 결함을 알고 있다는 건데, 그냥 덮어놓고 음성이라고 할거면 그걸 모델이라고 부를 이유도 딱히 없다는 것이다.

데이터가 불균형한 대표적인 예시로는 역시 기상 예보가 있는데, 우리나라의 경우 보통 일년 내내 비가 안 온다고 찍어도 $89 \%$ 정도의 정확도를 낼 수 있다고 한다1. 이런 수치가 조작된 것은 아니지만, 이것을 근거로 ‘기상 예보가 정확하다’고 주장한다면 ‘정확도는 과대평가 되었다’고 역풍을 맞을지도 모르는 일인 것이다.

애초에 이진binary 분류를 한다면 정확도는 $50 \%$ 밑으로 떨어지기도 어려운데, 불리하면 그냥 음양성 판정을 반대로 뒤집어서 반드시 $50 \%$ 이상의 정확도를 달성할 수 있기 때문이다. 정확도는 분명 전문가가 아닌 대중에게도 쉽게 설명할 수 있으며, 비교 과정 없이 모델 그 자체의 우수성을 어필할 수 있는 좋은 지표다. 그러나 어떠한 경우에서도 만능은 아니며, 정확도만이 모델의 퍼포먼스를 측정하는 유일한 방법이 아니라는 사실을 유념해야한다.

같이보기


  1. 일기예보 실제 정확도 공개되자…모두 경악 “기상청 믿었다 1억 날려” https://www.salgoonews.com/news/articleView.html?idxno=21129 ↩︎