최대우도추정량
📂수리통계학최대우도추정량
빌드업
모수 θ∈Θ 에 대해 확률밀도함수가 f(x;θ) 인 확률변수 X 를 생각해보자. X 와 같은 분포로 iid하게 뽑은 랜덤샘플 X1,⋯,Xn 는 같은 확률밀도함수 f(x;θ) 와 실현 x:=(x1,⋯,xn) 을 가진다. 이에 대해 다음과 같은 함수 L 을 우도함수likelihood function라 한다.
L(θ;x):=k=1∏nf(xk;θ)
아래에서 나오겠지만 우리는 이 함수의 최대값에 관심을 가지기 때문에 다음과 같이 로그를 취해 곱 ∏ 를 합 ∑ 으로 바꾼 l 로 나타내면 더 편리하다.
l(θ;x):=k=1∑nlogf(xk;θ)
정의
다음을 만족하는 추정량 θ^:=θ^(X) 를 최대우도추정량maximum Likelihood estimator, 줄여서 mle라 부른다.
θ^=argmaxL(θ;X)
- X 는 랜덤벡터 X:=(X1,⋯,Xn) 다.
- argmaxg 는 함수 g 의 최대인수로, g 가 최대가 되게끔 하는 값이다.
설명
직관
사실 우도likelihood는 영문 표현으로 보는게 더 와닿는데, 쉽게 말해 ‘그럴싸함’을 뜻한다.
가령 길에서 아무 남자 세 명을 잡아 측정한 키가 169cm, 171cm, 182cm고 한국 남성의 신장이 정규분포 N(μ,σ2) 를 따른다고 가정해보자. 정규분포의 확률밀도함수 f(x;μ) 는 모평균 x=μ 에서 최대값을 가지므로, 그 함숫값들의 곱으로 정의되는 L(θ;x) 는 θ=μ 일 때 가장 큰 값을 가질법하다.
여기서 함수 L 의 주된 인수argument는 데이터 x 가 아닌 θ 임에 주목하자. 다시 말해, L 은 확률밀도함수 f(x) 에 집어넣는 x 가 움직이면서 값이 바뀌지 않고 fθ 자체가 θ 에 따라 좌우로 움직여가며 바뀌는 함수라고 상상하면 좋다.
우리는 아직 함수 L 의 성질에 대해 많이 알지 못하므로 L 이 제일 커지는 곳이 θ=171 이라고 자신있게 말할 수는 없어도, 확실히 θ=182 는 아닐 것이다. 우도와 argmax 라는 표현이 낯설겠지만 정말 별거 없는 게, 결국 최대우도추정량이란 ‘제일 그럴싸한 값’을 말하는 것이다.
수식
만약 L 이 미분가능하다면, 최대우도추정량은 편미분방정식인 다음의 추정 방정식estimating equation을 만족시킨다.
∂θ∂l(θ)=0
이는 교과과정에서 함수의 최대값을 구할 때 미분을 쓰던 풀이의 연장에 불과하다. 다만 교과서에서 이 부분을 보면 단어가 너무 낯설고 무서울 수 있는데, 특히 통계학도라면 학부 1학년 이후로 미분방정식을 다룰 일이 많이 없기 때문에 덜컥 겁을 먹을 수 있다. 실제로는 미분방정식을 풀 일도 없고 잘 몰라도 되니 너무 걱정하지 말자.