라오-크래머 하한
📂수리통계학 라오-크래머 하한 정리 정칙조건 :
(R0): 확률밀도함수 f f f 는 θ \theta θ 에 대해 단사다. 수식으로는 다음을 만족시킨다.
θ ≠ θ ′ ⟹ f ( x k ; θ ) ≠ f ( x k ; θ ′ )
\theta \ne \theta ' \implies f \left( x_{k} ; \theta \right) \ne f \left( x_{k} ; \theta ' \right)
θ = θ ′ ⟹ f ( x k ; θ ) = f ( x k ; θ ′ ) (R1): 확률밀도함수 f f f 는 모든 θ \theta θ 에 대해 같은 서포트 를 가진다. (R2): 참값 θ 0 \theta_{0} θ 0 는 Ω \Omega Ω 의 내점 interior point 이다. (R3): 확률밀도함수 f f f 는 θ \theta θ 에 대해 두 번 미분가능하다. (R4): 적분 ∫ f ( x ; θ ) d x \int f (x; \theta) dx ∫ f ( x ; θ ) d x 은 적분 기호를 넘나들며 θ \theta θ 에 대해 두 번 미분가능하다. 모수 θ \theta θ 에 대해 확률밀도함수 가 f ( x ; θ ) f(x; \theta) f ( x ; θ ) 인 랜덤 샘플 X 1 , ⋯ , X n X_{1}, \cdots , X_{n} X 1 , ⋯ , X n 이 주어져있고 정칙조건 (R0)~(R4)를 만족시킨다고 하자. 통계량 Y : = u ( X 1 , ⋯ , X n ) Y := u \left( X_{1} , \cdots , X_{n} \right) Y := u ( X 1 , ⋯ , X n ) 이 E ( Y ) = k ( θ ) E(Y) = k(\theta) E ( Y ) = k ( θ ) 면
Var ( Y ) ≥ [ k ’ ( θ ) ] 2 n I ( θ )
\operatorname{Var} (Y) \ge {{ \left[ k’(\theta) \right]^{2} } \over { n I (\theta) }}
Var ( Y ) ≥ n I ( θ ) [ k ’ ( θ ) ] 2
이다. 이 때 우변의 [ k ’ ( θ ) ] 2 n I ( θ ) {{ \left[ k’(\theta) \right]^{2} } \over { n I (\theta) }} n I ( θ ) [ k ’ ( θ ) ] 2 을 라오-크래머 하한 rao-Cramér Lower Bound 이라 한다.
n I ( θ ) nI(\theta) n I ( θ ) 는 사이즈 n n n 인 랜덤샘플의 피셔 정보 다.증명 연속형인 경우에 대한 증명이지만 이산형일때도 별로 다를 게 없다.
k ( θ ) = E ( Y ) k(\theta) = E(Y) k ( θ ) = E ( Y ) 을 적분꼴로 풀어 적어보면
k ( θ ) = ∫ R ⋯ ∫ R u ( x 1 , ⋯ , x n ) f ( x 1 ; θ ) ⋯ f ( x n ; θ ) d x 1 ⋯ d x n
k(\theta) = \int_{\mathbb{R}} \cdots \int_{\mathbb{R}} u \left( x_{1}, \cdots , x_{n} \right) f \left( x_{1}; \theta \right) \cdots f \left( x_{n}; \theta \right) d x_{1} \cdots d x_{n}
k ( θ ) = ∫ R ⋯ ∫ R u ( x 1 , ⋯ , x n ) f ( x 1 ; θ ) ⋯ f ( x n ; θ ) d x 1 ⋯ d x n
양변을 θ \theta θ 로 미분하면 f f f 를 θ \theta θ 에 대한 함수로 보면 로그함수의 미분법에서 log g = g ′ g \displaystyle \log g = {{ g' } \over { g }} log g = g g ′ 이므로
k ’ ( θ ) = ∫ R ⋯ ∫ R u ( x 1 , ⋯ , x n ) [ ∑ k = 1 n 1 f ( x k ; θ ) ∂ f ( x k ; θ ) ∂ θ ] × f ( x 1 ; θ ) ⋯ f ( x n ; θ ) d x 1 ⋯ d x n = ∫ R ⋯ ∫ R u ( x 1 , ⋯ , x n ) [ ∑ k = 1 n f ′ f ] × f ( x 1 ; θ ) ⋯ f ( x n ; θ ) d x 1 ⋯ d x n = ∫ R ⋯ ∫ R u ( x 1 , ⋯ , x n ) [ ∑ k = 1 n ∂ log f ( x k ; θ ) ∂ θ ] × f ( x 1 ; θ ) ⋯ f ( x n ; θ ) d x 1 ⋯ d x n
\begin{align*} k’(\theta) =& \int_{\mathbb{R}} \cdots \int_{\mathbb{R}} u \left( x_{1}, \cdots , x_{n} \right) \left[ \sum_{k=1}^{n} {{ 1 } \over { f \left( x_{k} ; \theta \right) }} {{ \partial f \left( x_{k} ; \theta \right) } \over { \partial \theta }} \right]
\\ & \times f \left( x_{1}; \theta \right) \cdots f \left( x_{n}; \theta \right) d x_{1} \cdots d x_{n}
\\ =& \int_{\mathbb{R}} \cdots \int_{\mathbb{R}} u \left( x_{1}, \cdots , x_{n} \right) \left[ \sum_{k=1}^{n} {{ f ' } \over { f }} \right]
\\ & \times f \left( x_{1}; \theta \right) \cdots f \left( x_{n}; \theta \right) d x_{1} \cdots d x_{n}
\\ =& \int_{\mathbb{R}} \cdots \int_{\mathbb{R}} u \left( x_{1}, \cdots , x_{n} \right) \left[ \sum_{k=1}^{n} {{ \partial \log f \left( x_{k} ; \theta \right) } \over { \partial \theta }} \right]
\\ & \times f \left( x_{1}; \theta \right) \cdots f \left( x_{n}; \theta \right) d x_{1} \cdots d x_{n}
\end{align*}
k ’ ( θ ) = = = ∫ R ⋯ ∫ R u ( x 1 , ⋯ , x n ) [ k = 1 ∑ n f ( x k ; θ ) 1 ∂ θ ∂ f ( x k ; θ ) ] × f ( x 1 ; θ ) ⋯ f ( x n ; θ ) d x 1 ⋯ d x n ∫ R ⋯ ∫ R u ( x 1 , ⋯ , x n ) [ k = 1 ∑ n f f ′ ] × f ( x 1 ; θ ) ⋯ f ( x n ; θ ) d x 1 ⋯ d x n ∫ R ⋯ ∫ R u ( x 1 , ⋯ , x n ) [ k = 1 ∑ n ∂ θ ∂ log f ( x k ; θ ) ] × f ( x 1 ; θ ) ⋯ f ( x n ; θ ) d x 1 ⋯ d x n
이제 새로운 확률변수 Z : = ∑ k = 1 n ∂ log f ( x k ; θ ) ∂ θ \displaystyle Z := \sum_{k=1}^{n} {{ \partial \log f \left( x_{k} ; \theta \right) } \over { \partial \theta }} Z := k = 1 ∑ n ∂ θ ∂ log f ( x k ; θ ) 를 정의하면 위 식은 다음과 같이 깔끔하게 정리된다.
k ’ ( θ ) = E ( Y Z )
k’(\theta) = E(YZ)
k ’ ( θ ) = E ( Y Z )
제1바틀렛 항등식 :
E [ ∂ log f ( X ; θ ) ∂ θ ] = 0
E \left[ {{ \partial \log f ( X ; \theta ) } \over { \partial \theta }} \right] = 0
E [ ∂ θ ∂ log f ( X ; θ ) ] = 0
피셔 정보의 분산 꼴 :
Var ( ∂ log L ( θ ; X ) ∂ θ ) = n I ( θ )
\operatorname{Var} \left( {{ \partial \log L ( \theta ; \mathbf{X} ) } \over { \partial \theta }} \right) = n I (\theta)
Var ( ∂ θ ∂ log L ( θ ; X ) ) = n I ( θ )
여기서 Z Z Z 는 스코어 함수의 합이므로, 바틀렛 항등식과 피셔 정보의 분산꼴에 따라
E ( Z ) = 0 Var ( Z ) = n I ( θ )
\begin{align*}
E(Z) =& 0
\\ \operatorname{Var}(Z) =& n I (\theta)
\end{align*}
E ( Z ) = Var ( Z ) = 0 n I ( θ )
이에 따라 k ’ ( θ ) k’(\theta) k ’ ( θ ) 를 공분산 꼴 로 풀어내면 Y , Z Y,Z Y , Z 의 표준편차 σ Y , σ Z \sigma_{Y}, \sigma_{Z} σ Y , σ Z 와 피어슨 상관계수 ρ \rho ρ 에 대해
k ’ ( θ ) = E ( Y Z ) = E ( Y ) E ( Z ) + ρ σ Y σ Z = E ( Y ) ⋅ 0 + ρ σ Y n I ( θ )
\begin{align*} k’(\theta) =& E(YZ)
\\ =& E(Y)E(Z) + \rho \sigma_{Y} \sigma_{Z}
\\ =& E(Y) \cdot 0 + \rho \sigma_{Y} \sqrt{n I(\theta)}
\end{align*}
k ’ ( θ ) = = = E ( Y Z ) E ( Y ) E ( Z ) + ρ σ Y σ Z E ( Y ) ⋅ 0 + ρ σ Y n I ( θ )
양변을 제곱하고 ρ 2 \rho^{2} ρ 2 에 대해 정리하면
[ k ’ ( θ ) ] 2 σ Y 2 n I ( θ ) ≤ ρ 2
{{ \left[ k’(\theta) \right]^{2} } \over { \sigma_{Y}^{2} n I (\theta) }} \le \rho^{2}
σ Y 2 n I ( θ ) [ k ’ ( θ ) ] 2 ≤ ρ 2
ρ 2 ≤ 1 \rho^{2} \le 1 ρ 2 ≤ 1 이고, 양변에 σ Y 2 = Var ( Y ) \sigma_{Y}^{2} = \operatorname{Var} (Y) σ Y 2 = Var ( Y ) 를 곱하면
[ k ’ ( θ ) ] 2 n I ( θ ) ≤ Var ( Y )
{{ \left[ k’(\theta) \right]^{2} } \over { n I (\theta) }} \le \operatorname{Var} (Y)
n I ( θ ) [ k ’ ( θ ) ] 2 ≤ Var ( Y )
■
따름정리 만약 k ( θ ) = θ k(\theta) = \theta k ( θ ) = θ 즉, Y Y Y 가 불편추정량 이면
k ( θ ) = θ ⟹ k ’ ( θ ) = 1 ⟹ [ k ’ ( θ ) ] 2 = 1
\begin{align*}
& k(\theta) = \theta
\\ \implies& k’(\theta) = 1
\\ \implies& \left[ k’(\theta) \right]^{2} = 1
\end{align*}
⟹ ⟹ k ( θ ) = θ k ’ ( θ ) = 1 [ k ’ ( θ ) ] 2 = 1
이므로
Var ( Y ) ≥ 1 n I ( θ )
\operatorname{Var} (Y) \ge {{ 1 } \over { n I (\theta) }}
Var ( Y ) ≥ n I ( θ ) 1