logo

최대우도추정량 📂수리통계학

최대우도추정량

빌드업

모수 $\theta \in \Theta$ 에 대해 확률밀도함수가 $f \left( x ; \theta \right)$ 인 확률변수 $X$ 를 생각해보자. $X$ 와 같은 분포로 iid하게 뽑은 랜덤샘플 $X_{1} , \cdots , X_{n}$ 는 같은 확률밀도함수 $f(x ; \theta)$ 와 실현 $\mathbf{x} := \left( x_{1} , \cdots , x_{n} \right)$ 을 가진다. 이에 대해 다음과 같은 함수 $L$ 을 우도함수likelihood function라 한다. $$ L ( \theta ; \mathbf{x} ) := \prod_{k=1}^{n} f \left( x_{k} ; \theta \right) $$ 아래에서 나오겠지만 우리는 이 함수의 최대값에 관심을 가지기 때문에 다음과 같이 로그를 취해 곱 $\prod$ 를 합 $\sum$ 으로 바꾼 $l$ 로 나타내면 더 편리하다. $$ l ( \theta ; \mathbf{x} ) := \sum_{k=1}^{n} \log f \left( x_{k} ; \theta \right) $$

정의 1

다음을 만족하는 추정량 $\hat{\theta} := \hat{\theta} \left( \mathbf{X} \right)$ 를 최대우도추정량maximum Likelihood estimator, 줄여서 mle라 부른다. $$ \hat{\theta} = \argmax L \left( \theta ; \mathbf{X} \right) $$


  • $\mathbf{X}$ 는 랜덤벡터 $\mathbf{X} := \left( X_{1} , \cdots , X_{n} \right) $ 다.
  • $\argmax g$ 는 함수 $g$ 의 최대인수로, $g$ 가 최대가 되게끔 하는 값이다.

설명

직관

사실 우도likelihood는 영문 표현으로 보는게 더 와닿는데, 쉽게 말해 ‘그럴싸함’을 뜻한다.

가령 길에서 아무 남자 세 명을 잡아 측정한 키가 169cm, 171cm, 182cm고 한국 남성의 신장이 정규분포 $N \left( \mu , \sigma^{2} \right)$ 를 따른다고 가정해보자. 정규분포의 확률밀도함수 $f (x; \mu)$ 는 모평균 $x = \mu$ 에서 최대값을 가지므로, 그 함숫값들의 곱으로 정의되는 $L \left( \theta ; \mathbf{x} \right)$ 는 $\theta = \mu$ 일 때 가장 큰 값을 가질법하다.

여기서 함수 $L$ 의 주된 인수argument는 데이터 $\mathbf{x}$ 가 아닌 $\theta$ 임에 주목하자. 다시 말해, $L$ 은 확률밀도함수 $f(x)$ 에 집어넣는 $x$ 가 움직이면서 값이 바뀌지 않고 $f_{\theta}$ 자체가 $\theta$ 에 따라 좌우로 움직여가며 바뀌는 함수라고 상상하면 좋다.

우리는 아직 함수 $L$ 의 성질에 대해 많이 알지 못하므로 $L$ 이 제일 커지는 곳이 $\theta = 171$ 이라고 자신있게 말할 수는 없어도, 확실히 $\theta = 182$ 는 아닐 것이다. 우도와 $\argmax$ 라는 표현이 낯설겠지만 정말 별거 없는 게, 결국 최대우도추정량이란 ‘제일 그럴싸한 값’을 말하는 것이다.

수식

만약 $L$ 이 미분가능하다면, 최대우도추정량은 편미분방정식인 다음의 추정 방정식estimating equation을 만족시킨다. $$ {{ \partial l ( \theta ) } \over { \partial \theta }} = 0 $$ 이는 교과과정에서 함수의 최대값을 구할 때 미분을 쓰던 풀이의 연장에 불과하다. 다만 교과서에서 이 부분을 보면 단어가 너무 낯설고 무서울 수 있는데, 특히 통계학도라면 학부 1학년 이후로 미분방정식을 다룰 일이 많이 없기 때문에 덜컥 겁을 먹을 수 있다. 실제로는 미분방정식을 풀 일도 없고 잘 몰라도 되니 너무 걱정하지 말자.


  1. Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p209, 329. ↩︎