모수 θ∈Θ 에 대해 확률밀도함수가 f(x;θ) 인 확률변수X 를 생각해보자. 로그우도함수가 가장 커지는 추정량인 최대우도추정량은 다음과 같은 편미분방정식을 만족하는 θ 으로 구할 수 있었다.
k=1∑n∂θ∂logf(xk;θ)=0
여기서 ∂θ∂logf(x;θ) 를 스코어 함수score function이라 부른다. 수식적으로 편미분의 의미를 생각해보면 이들의 값이 0 에 가깝다는 것은 θ 가 변함으로써 우도함수의 변화에 끼치는 영향이 미비하다는 것이다. 그렇다면 거꾸로
E[∂θ∂logf(X;θ)]
을 계산하면 주어진 θ 가 미치는 영향력을 구체적으로 구할 수 있을 것 같다. 곱셈으로 계산되는 우도함수 L 대신 덧셈으로 계산되는 로그우도함수 l 을 고려하는 것은 이러한 의도도 있는데, 덧셈 계산은 자연스럽게 평균―기대값의 개념과 연결되기 때문이다. 그러나 스코어 함수의 값은 음수와 양수가 뒤섞여있기 때문에 실제로 ‘변화하는 양’을 계산하기엔 부적절하다. 이를 극복하기 위해 제곱을 생각해보자.
I(θ)=?E[(∂θ∂logf(X;θ))2]
지금까지의 논의를 보았을 때 I(θ) 라는 것은 앞서 설명한대로 주어진 θ 가 얼마나 정보를 주는지로 볼 수도 있겠다. 이제 이러한 꼴이 최대우도추정법의 맥락 없이도 수식적으로 도출될 수 있는지 살펴보자.
(R4): 적분 ∫f(x;θ)dx 은 적분 기호를 넘나들며 θ 에 대해 두 번 미분가능하다.
유도
[1]
1=∫−∞∞f(x;θ)dx
정칙조건 (R3), (R4) 에 따라 θ 에 대해 편미분하면
0=∫−∞∞∂θ∂f(X;θ)dx
적분 안에 1=f(x;θ)f(x;θ) 를 곱하는 트릭을 사용하고, f 를 θ 에 대한 함수로 보면 로그함수의 미분법에서 logg=gg′ 이므로
0=====∫−∞∞∂θ∂f(X;θ)f(x;θ)f(x;θ)dx∫−∞∞fθ(x;θ)f(x;θ)1f(x;θ)dx∫−∞∞f(x;θ)f′(x;θ)f(x;θ)dx∫−∞∞∂θ∂logf(X;θ)f(x;θ)dxE[∂θ∂logf(X;θ)]
■
[2]
0=∫−∞∞∂θ∂logf(X;θ)f(x;θ)dx
유도 [1] 중에 있었던 위 등식을 한 번 더 θ 로 편미분 해보면 곱의 미분법과 같은 트릭을 써서
0====∂θ∂0∫−∞∞∂θ∂(∂θ∂logf(X;θ)f(x;θ))dx∫−∞∞∂θ2∂2logf(X;θ)f(x;θ)dx+∫−∞∞(∂θ∂logf(X;θ))2f(x;θ)dxE[∂θ2∂2logf(X;θ)]+E[(∂θ∂logf(X;θ))2]
항등식 [1]에 따라 양변에서 02=E[∂θ∂logf(X;θ)]2 를 빼면 VarY=EY2−(EY)2 이므로
0−02==E[∂θ2∂2logf(X;θ)]+E[(∂θ∂logf(X;θ))2]−E[∂θ∂logf(X;θ)]2E[∂θ2∂2logf(X;θ)]+Var(∂θ∂logf(X;θ))
피셔 정보 I(θ) 는 다음과 같이 스코어 함수의 제곱의 기대값으로 정의된다.
I(θ):=E[(∂θ∂logf(X;θ))2]
따름정리
바틀렛 항등식에 따라 다음이 성립한다.
I(θ)===E[(∂θ∂logf(X;θ))2]−02Var(∂θ∂logf(X;θ))−E[∂θ2∂2logf(X;θ)]
이에 따라 랜덤 샘플X1,⋯,Xn 에 대한 정보는
Var(∂θ∂logL(θ;X))=Var(k=1∑n∂θ∂logf(Xk;θ))=nI(θ)
다시 말해, 표본의 수만큼 정보도 많아진다.
설명
빌드업의 내용을 받아들일 수 있다면 피셔 정보를 왜 저렇게 복잡하게 정의하는지에 대한 의문은 없을 것이다.
따름정리에서 피셔 정보는 스코어 함수의 분산으로도 나타날 수 있음을 보았는데, 피셔 정보가 크다는 것은 그만큼 스코어 함수가 다양하게 나오는 것이며 이는 직관적인 ‘정보량’의 개념과도 자연스럽게 연결되는 것을 확인할 수 있다.