logo

수리통계학에서의 손실함수와 위험함수 📂수리통계학

수리통계학에서의 손실함수와 위험함수

도입1

사이즈가 $n$인 샘플확률변수를 $X$라 하자. 그리고 이 샘플이 확률밀도함수 $p(x; \theta)$을 따르는 분포에서 얻어졌다고 하자. 모수 $\theta$의 추정량을 $\phi(X)$와 같이 나타내자.

추정량의 역할은 모수 $\theta$를 잘 근사하는 것이므로 이 둘 사이의 오차를 측정할 수 있는 함수를 생각하는 것이 자연스럽다. 또한 차이를 재는 것이므로 그 함숫값은 양수인 것이 타당하다. 따라서 둘 사이의 차이를 나타내는 함수 $\mathcal{L}$을 아래와 같이 정의한다.

정의

모수 $\theta$와 그 모수의 추정량 $\phi(X)$에 대한 함수 $\mathcal{L}$을 손실 함수loss function라 한다.

$$ \mathcal{L} : (\theta, \phi(X)) \mapsto \mathcal{L}(\theta, \phi(X)) \in \mathbb{R}^{+} $$

여기서 $\mathbb{R}^{+} = \left\{ x \in \mathbb{R} : x \gt 0 \right\}$이다. 손실함수의 기댓값위험 함수risk function라 한다.

$$ R(\theta, \phi(X)) = E_{X}\left[ \mathcal{L}(\theta, \phi(X)) \right] = \int \mathcal{L}(\theta, \phi(x)) p(x; \theta) \mathrm{d}x $$

설명

추정량 $\phi(X)$를 선택할 때 마다 모수와의 차이인 $\mathcal{L}$이 정해지므로, 이러한 맥락에서 추정량을 결정 함수decision function이라 부르기도 한다. 이때는 흔히 decision의 앞글자를 따와 $\delta(X)$라 표기한다.

$$ R(\theta, \delta) = E_{X} \left[ \mathcal{L}(\theta, \delta(X)) \right] = \int \mathcal{L}(\theta, \delta(X)) p(x; \theta) \mathrm{d}x $$

정의에서 손실함수는 그 형태가 분명하게 정해지지 않은 것에 주목하자. 손실함수는 어떻게 정의해도 되지만, 손실함수가 손실함수로서 잘 작동하려면 모수와 추정량 사이의 괴리를 잘 반영해야하고, 계산상의 이점이 있어야하는 등 여러 측면에서 고려해야할 것이 많다. 이런 맥락에서 위험함수는 손실 함수를 선택하는 중요한 기준이 되는데, 모든 $\theta$에 대해서 $R(\theta, \phi(X))$가 최소가 되도록하는 손실함수를 선택하는 것이 바람직한 방법일 것이다.

프리퀀티스트frequencyist, 빈도론자의 관점에서는 모수인 $\theta$가 고정된 하나의 값이지만, 베이지안의 관점에서는 모수 $\theta$가 확률변수로 취급된다. 그러면 🔒(26/03/10)베이즈추론에서의 리스크 함수결합분포에 대한 기댓값으로 바뀐다.

$$ R(\Theta, \phi(X)) = E_{\Theta, X} \left[ \mathcal{L}(\Theta, \phi(X)) \right] = \int \int \mathcal{L}(\theta, \phi(x)) p(\theta, x) \mathrm{d}\theta \mathrm{d}x $$

평균제곱오차

아래와 같은 위험함수를 평균제곱오차mean squared error라 한다.

$$ R(\theta, \phi(X)) = E_{X} \left[ \big( \theta - \phi(X) \big)^{2} \right] = \int \big( \theta - \phi(X) \big)^{2} p(x; \theta)\mathrm{d}x $$

뜻은 이름의 반대로 이해하면 된다. 오차 제곱의 평균이다.

같이보기


  1. Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p376. ↩︎