수리통계적인 우도비검정의 정의
정의 1
$$ \begin{align*} H_{0} :& \theta \in \Theta_{0} \\ H_{1} :& \theta \in \Theta_{0}^{c} \end{align*} $$
위와 같은 가설검정에 대해 다음의 통계량 $\lambda$ 를 우도비검정 통계량likelihood Ratio test statistic이라 한다. $$ \lambda \left( \mathbf{x} \right) := {{ \sup_{\Theta_{0}} L \left( \theta \mid \mathbf{x} \right) } \over { \sup_{\Theta} L \left( \theta \mid \mathbf{x} \right) }} $$
주어진 $c \in [0,1]$ 에 대해 기각역 $\left\{ \mathbf{x} : \lambda \left( \mathbf{x} \right) \le c \right\}$ 를 가지는 모든 가설검정을 우도비검정likelihood Ratio test이라 하고, 주로 줄여서 LRT라 한다.
- $L$ 은 우도함수다.
설명
$\lambda$ 의 정의에서 분자는 $\sup_{\Theta_{0}}$, 분모는 $\sup_{\Theta}$ 에서 슈프리멈을 찾고 있다. 귀무가설 하의 부분모수공간 $\Theta_{0}$ 는 전체모수공간의 부분집합 $\Theta_{0} \subseteq \Theta$ 고, 자연스럽게 $0 \le \lambda \left( \mathbf{x} \right) \le 1$ 이 성립한다. 이 비가 $0$ 에 가깝다는 것은 그만큼 귀무가설 하에서 모수가 그럴싸하지 않다는 뜻이 된다.
여기까지 공부한 입장에서 통게학을 처음 접하던 그 시절을 돌이켜보면, 기초적인 확률분포론에서 시작해 t-분포, F-분포, 카이제곱분포 등의 검정통계량 같은 걸 따로따로 공부하는 것보다 훨씬 깔끔하다는 생각이 들 것이다. 물론 우도비검정에도 나름의 모티브는 있지만, 앞서 언급한 검정들과 달리 어떤 빌드업 없이도 말이 된다.
예시: 정규분포
하나편 실제로 LRT로 구해야 할 때는 슈프리멈 $\sup$ 이 반영된 상태여야한다. 분모는 모수공간 $\Theta$ 전체에서 가장 커지므로 최대우도추정량을 사용하고, 분자는 귀무가설 하에서 가장 커지게 세팅한다. $$ \begin{align*} H_{0} :& \theta = \theta_{0} \\ H_{1} :& \theta \ne \theta_{0} \end{align*} $$ 분산이 알려진 정규분포 $N \left( \theta , \sigma^{2} \right)$ 의 랜덤샘플 $X_{1} , \cdots , X_{n}$ 에 대해 위와 같은 가설검정을 생각해보자. 여기서 분모는 모평균 $\theta$ 에 대한 최대우도추정량인 표본평균 $\bar{\mathbf{x}}$ 을 사용해야할 것이고, 분자는 귀무가설의 모수공간이 홑원소 집합 $\Theta_{0} = \left\{ \theta_{0} \right\}$ 이므로 $\theta_{0}$ 를 그대로 사용하면 된다. 수식적으로 다음과 같이 구해진다. $$ \begin{align*} \lambda \left( \mathbf{x} \right) =& {{ \sup_{\Theta_{0}} L \left( \theta \mid \mathbf{x} \right) } \over { \sup_{\Theta} L \left( \theta \mid \mathbf{x} \right) }} \\ =& {{ L \left( \theta_{0} \mid \mathbf{x} \right) } \over { L \left( \bar{\mathbf{x}} \mid \mathbf{x} \right) }} \\ =& {{ (2\pi)^{-n/2} \exp \left( - \sum \left( x_{k} - \theta_{0} \right)^{2} / 2 \right) } \over { (2\pi)^{-n/2} \exp \left( - \sum \left( x_{k} - \bar{\mathbf{x}} \right)^{2} / 2 \right) }} \\ =& \exp \left( -n \left( \bar{\mathbf{x}} - \theta_{0} \right)^{2} / 2 \right) \end{align*} $$ 이 때 $\lambda (\mathbf{x})$ 는 정확히 $\bar{\mathbf{x}} = \theta_{0}$ 일 때 $1$ 이고, 차이가 커질수록 $0$ 에 가까워진다는 것에 주목하자. 물론 LRT의 수식적인 정의에서 당연히 $0$ 부터 $1$ 까지인 것은 알지만, 계산된 결과를 보면 실제로 표본분산이 귀무가설 하의 모평균과 얼마나 비슷한지에 따라 직관적으로 가설검정을 할 수 있다.
Casella. (2001). Statistical Inference(2nd Edition): p375. ↩︎