logo

패리티 플롯 📂데이터과학

패리티 플롯

정의

참값true과 예측값prediction순서쌍산점도로 그린 것을 패리티 플롯parity plot이라 한다.

설명

실제 발음에 가깝게 적으면 [패러티 플랏] 정도가 될텐데, 본 글에서는 외래어 표기법에 따라 패리티 플롯이라 적는다. parity라는 단어는 '일치'라는 의미를 갖고 있다고 보면 되는데, 그러면 패리티 플롯이란 예측값이 참값과 얼마나 잘 일치하는지 시각적으로 잘 보여주는 그림이라고 할 수 있다.

여기서 참값이라 함은 이론적으로 계산한 값 혹은 실제로 관측한 값 등을 의미한다. 예측값은 통계학, 딥러닝 등 일련의 방법으로 참값을 예측한 값을 말한다. 독립변수 xix_{i}에 대한 참값이 yiy_{i}이고, 예측값이 y^i\hat{y}_{i}라고 하자. 그러면 패리티 플롯은 {(yi,y^i)}i=1n\left\{ (y_{i}, \hat{y}_{i}) \right\}_{i=1}^{n} 혹은 {(y^i,yi)}i=1n\left\{ (\hat{y}_{i}, y_{i}) \right\}_{i=1}^{n}을 산점도로 그린 것이다. 따라서 y=xy = x 그래프와 가깝게 찍힌 점이 많을수록 예측값이 참값과 가까워 잘 예측한 것이다. 아래에서 왼쪽의 그림은 예측값과 참값이 비슷한 경우, 오른쪽 그림은 예측값이 참값과 비슷하지 않은 경우이다.

아래와 같은 경우에서 유용하다.

  • 독립변수가 한 개 내지 두 개인 경우에는 선 그래프히트맵으로 그릴 수 있겠지만, 독립변수가 여러 개인 경우에는 그냥 값(종속변수)만 비교하는 패리티 플롯이 더 유리할 수 있다.
  • 독립변수가 양적변수가 아니라 질적변수일 때.
  • 참값과 예측값의 차이만 중요하고, 그에 대응하는 독립변수의 값 자체가 중요하지는 않을 때.