logo

데이터과학에서 재현도란? 📂데이터과학

데이터과학에서 재현도란?

정의

양성positive $P$ 와 음성negative $N$ 을 구분하는 분류문제에서 양성과 음성을 판정하는 모델이 주어져 있다고 하자. 양을 양으로 판정한 수를 참양성true Positive $TP$, 음을 음으로 판정한 수를 참음성true Negative $TN$, 양을 음으로 잘못 판정한 수를 위음성false Negative $FN$, 음을 양으로 잘못 판정한 수를 위양성false Positive $FP$ 라 하자.

수식적인 정의

다음의 수치를 모델의 재현도recall라 한다. $$ \textrm{Recall} := {{ TP } \over { P }} $$

설명

재현도란 양성을 얼마나 빠짐 없이 찾아내는지를 나타내는 척도로써, 모델이 양성을 찾아내는 능력의 재현성을 수치화한 것이다. 또 다른 이름으로는 민감도sensitivity가 있다. 굳이 따지자면 통계학쪽에서는 민감도, 컴퓨터공학 및 머신러닝 쪽에서는 재현도라는 표현을 비교적 선호한다.

재현도가 중요한 상황

이상의 고찰에서 우리는 정확도만이 분류문제의 모델을 평가하는 지표가 아님을 납득할 수 있을 것이다. 모델이 스스로 “내 재현도가 높다"고 말하는 것은 “내가 못 찾은 양성은 없다"고 주장하는 것과 같다. 재현도는 흔히 2종 오류가 더 심각한 상황에 퍼포먼스의 척도로서 고려될 수 있다:

  • 정보 검색: 인터넷은 정보의 바다인데, 그 중에서 내가 관심을 가지는 문서의 양은 그 분야가 무엇이든 전체에 비해 극히 일부분이라고 확신할 수 있다. 어떤 문서가 내가 준 쿼리query와 관련이 있을 때 양성이라고 한다면, 검색 엔진의 중요한 능력 중 하나는 그 수많은 문서 중에서 내 관심사에 맞는 양성 문서를 가능한 많이 찾아내는 것에 있다.
  • 암 진단: 요즘은 의학의 발달에 따라 나름 암을 치료할 수 있다고 하지만, 그것도 초기에 잡느냐 죽기 직전에 도박을 하느냐는 많은 부분에서 다르다. 특히 초기 암의 경우 대부분 어떤 통증이나 장애를 일으키지 않기 때문에 증상이 있든 없든 경계를 하고, 작은 증거라도 민감하게sensitively 잡아낼 필요가 있다. 만약 위양성이라면 빠른 시일 내에 정밀 진단을 해보면 될 일이지만, 아무 증상 없는 암 환자를 놓치는 경우 다음 암 진단은 ‘증상이 생길 정도’로 암이 진행된 이후일 것이다.

재현도가 과대평가되는 상황

정확도가 만능이 아니듯 재현도 역시 만능이 아니다. 재현도의 수식을 보면 위양성 $FP$ 에 대한 어떠한 패널티도 지고 있지 않은 걸 알 수 있는데, 이는 극단적으로 말해 어떤 데이터에서든 반드시 100%의 재현도를 가지는 모델의 존재성을 내포한다. 몇 개를 틀렸든 양성만 다 찾아내는 게 지상목표라면 그냥 어떤 샘플이든 덮어놓고 양성이라 찍으면 그만이기 때문이다.

예를 들어 모델 A가 1000개의 표본 중 10개의 양성 표본이 있는 데이터에서 9개를 양성으로 판정하고 91개를 헛짚었다면 그 재현도는 $$ {{ 9 } \over { 10 }} = 90 \% $$ 가 된다. 무려 91개의 위양성이 있었음에도 이 모델은 어쨌거나 10개의 양성 중 9개를 탐지했으므로 재현도 측면에서 준수한 성능을 가지는 게 맞다. 한편 또다른 모델 B는 9개의 양성 표본을 찾아내고 딱 1개의 위양성을 일으켜서 재현도가 $$ {{ 9 } \over { 10 }} = 90 \% $$ 라고 하자. A와 B는 재현도 측면에서 동등한 퍼포먼스를 낸 것으로 평가받으며, 이는 B에게 공평하지 않아보일 수 있다. 그러나 엄밀히 말해 이들의 재현도는 곡해되지 않았는데, 어쨌거나 양성을 찾아낸 수는 동일하게 측정된 것이고 그 해석 자체는 틀린 게 없다.

그럼에도 ‘A보다 B가 낫다’고 느껴진다면 재현도가 어떻게 과대평가 되었는지를 이해한 것이다. A가 하는 판정은 도대체 믿을 수가 없어서, 양성이라고 찾아낸 것 중에 진짜 양성을 또 찾아야하는 촌극이 벌어졌다.어떻게 보면 이와 반대되는 것이 정밀도고, 둘의 약점을 동시에 고려한 것이 $F_{1}$ 스코어다.

같이보기