통계량T(X) 가 주어진 샘플 의 X조건부 확률 분포가 모수θ 에 종속되지 않으면 T(X) 를 θ 에 대한 충분통계량이라 한다.
설명
정의의 수식이 의미하는 것은 직관적으로 보았을 때 분자와 분모에서 θ 가 캔슬된다는 것―충분통계량 Y1 이 랜덤샘플X1,⋯,Xn 의 정보를 정확하게 물고 있다는 의미가 될 것이다. 충분통계량의 ‘충분’이란 θ 에 대해 가진 정보가 ‘충분’하다 정도로 받아들이면 되고, 충분통계량이 빠진 후에는 θ 에 대한 정보가 전혀 남아있지 않아야한다.
예시로써 충분통계량을 이해하기 위해 다음의 정리를 사용하자.
네이만 인수분해 정리: 랜덤 샘플X1,⋯,Xn 이 모수 θ∈Θ 에 대해 같은 확률질량/밀도함수 f(x;θ) 를 가진다고 하자. 통계량Y=u1(X1,⋯,Xn) 이 θ 의 충분통계량인 것은 다음을 만족하는 음이 아닌 두 함수 k1,k2≥0 이 존재하는 것이다.
f(x1;θ)⋯f(xn;θ)=k1[u1(x1,⋯,xn);θ]k2(x1,⋯,xn)
단, k2 는 θ 에 종속되지 않아야한다.
와닿지 않는 예시
X1,⋯,Xn∼N(μ,σ2)
경험적으로 충분통계량은 왜 이런 걸 구하는지 이해하지 못하는 것에서 시작해야 이해할 수 있었다. 대표적으로 와닿지 않는 예시로써 위와 같이 정규분포N(μ,σ2) 의 모평균 μ 에 대한 충분통계량을 보는 것이다. 인수분해 정리에 따르면 μ 의 충분통계량은
k=1∏nf(xk;μ)=====k=1∏nσ2π1exp(−2σ2(xi−μ)2)(σ2π1)nexp(−k=1∑n2σ2(xi−μ)2)(σ2π1)nexp(−k=1∑n2σ2xi2)exp(−k=1∑n2σ2(2xi−μ2))(σ2π1)nexp(−k=1∑n2σ2xi2)⋅exp(−σ21k=1∑nxi+2n(μ/σ)2)k2(x1,⋯,xn)⋅k1[u1(x1,⋯,xn);μ]
이므로 표본합 ∑k=1nXk 이든 분자 분모에 n 을 곱해서 표본평균 X 가 되든 상관 없다. 어찌되든 우리의 직관대로 μ 의 충분통계량으로써 그 불편추정량이면서 일치추정량이면서 최대우도추정량인 표본평균이 나온 것까진 좋다. 수식적으로는 무슨 말인지 알겠다. 그런데 뭐 어쩌란건지, 영 감이 잡히지 않을 것이다.
와닿는 예시
X1,⋯,Xn∼U(0,θ) with f(x;θ)={10,if x∈(0,θ),otherwise=θ1I(0,θ)(x)
가령 최대값의 모수가 θ 인 유니폼분포에서 얻은 랜덤 샘플을 생각해보자. 실제 그 실현이
2.31.21.70.11.1
이고 더 이상의 샘플을 얻을 수 없다면, 균등분포 U(a,b) 의 모평균이 2b+a 기 때문에 다음과 같은 추정량을 생각해볼 수 있다.
2θ^+0=n∑kxk⟹θ^=?n2∑kxk
수리통계적으로 썩 나쁘지 않은 추측같다. 실제로 위 데이터로 계산한 표본평균의 2배는 2.16 으로 꽤 그럴싸한데, 생각해보면 2.3 이 샘플에 있으므로 θ=2.16 일 리가 없다. 때려죽여도 θ 가 2.3 보다는 크거나 같아야할 것이고, 직관적으로 보아 θ 에 대한 합리적 추정은 그냥 간단히 θ^=2.3 이 될 수 있다. 그보다 큰 샘플을 얻을 리가 없다는 게 아니라, 지금 샘플을 보았을 때 딱히 2.3 보다 크게 생각할 이유가 하등 없기 때문이다. 이제 실제로 충분통계량을 찾아보자.
이 보조정리와 인수분해 정리에 따라 생각해보면 θ 에 대한 충분통계량은
k=1∏nf(xk;μ)===k=1∏nθ1I(0,θ)(xk)θn1I(0,θ)(maxxk)⋅1k1[u1(x1,⋯,xn);θ]k2(x1,⋯,xn)
이므로 표본의 최대값 maxkXk=X(n) 이 될 수 있다. 이것이 의미하는 것은 말 그대로 θ 에 대한 정보를 생각할 때 여타 다른 샘플은 필요 없고, maxkXk 만 생각하면 ‘충분’하다는 것이다.
이러한 아이디어는 데이터 많이 뽑아서 모수 찍고 어디로 근사시키고 하는 사고방식과는 아예 궤를 달리한다. 언뜻 직관뿐인 단순 추측에 대해 수리와 형식으로써 접근하는 통계적 추론이고, 이를 통해 한 단계 더 깊은 통계학의 세계로 들어설 수 있다.
최소충분통계량
우리는 와닿는 예시에서 maxkXk 이 θ 에 대한 충분통계량임을 직관과 비교해서 확인했다. 딱봐도 이보다 더 좋은 충분통계량은 없어보이는데, 최소충분통계량에 대한 논의가 그 답이 될 수 있을 것이다.
Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p391. ↩︎