logo

ロケーション-スケール族の補助統計量 📂数理統計学

ロケーション-スケール族の補助統計量

定理 1

X1,,XnX_{1} , \cdots , X_{n}がロケーションファミリーであり、かつスケールファミリーから来るランダムサンプルであるとしよう。二つの統計量 T1(X1,,Xn)T_{1} \left( X_{1} , \cdots, X_{n} \right)T2(X1,,Xn)T_{2} \left( X_{1} , \cdots , X_{n} \right) が全てのx1,,xnx_{1} , \cdots , x_{n}および全ての定数 bRb \in \mathbb{R}a>0a > 0に対して Ti(ax1+b,,axn+b)=aTi(x1,,xn) T_{i} \left( a x_{1} + b , \cdots , a x_{n} + b \right) = a T_{i} \left( x_{1} , \cdots , x_{n} \right) を満たすならば、その比 T1/T2T_{1}/T_{2} は補助統計量である。

証明

XkX_{k} はロケーション-スケールファミリーから来ているので、あるロケーションパラメーターθR\theta \in \mathbb{R}とスケールパラメーターσ>0\sigma > 0について次のように表せる。 Xk=θ+σZk X_{k} = \theta + \sigma Z_{k}

ここで、ZkZ_{k}f(z;θ=0,σ=1)f (z ; \theta = 0, \sigma = 1)から抽出されるサンプルを意味する。仮定によればT1T_{1}T2T_{2}の比は

T1(X1,,Xn)T2(X1,,Xn)=σT1(Z1,,Zn)σT2(Z1,,Zn)=T1(Z1,,Zn)T2(Z1,,Zn) {{T_{1} \left( X_{1} , \cdots , X_{n} \right) } \over {T_{2} \left( X_{1} , \cdots , X_{n} \right) }} = { \sigma {T_{1} \left( Z_{1} , \cdots , Z_{n} \right) } \over {\sigma T_{2} \left( Z_{1} , \cdots , Z_{n} \right) }} = { {T_{1} \left( Z_{1} , \cdots , Z_{n} \right) } \over { T_{2} \left( Z_{1} , \cdots , Z_{n} \right)}}

であるので、θ\thetaσ\sigmaに依存しない補助統計量である。

説明

例として、サンプルの範囲RRと標本標準偏差SSの比は補助統計量である。まず範囲range

R(σZ1+θ,,σZn+θ)=R(X1,,Xn)=X(n)X(1)=σZ(n)+θσZ(1)θ=σ(Z(n)σZ(1))=σR(Z1,,Zn) \begin{align*} & R \left( \sigma Z_{1} + \theta , \cdots , \sigma Z_{n} + \theta \right) \\ =& R \left( X_{1} , \cdots , X_{n} \right) \\ =& X_{(n)} - X_{(1)} \\ =& \sigma Z_{(n)} + \theta - \sigma Z_{(1)} - \theta \\ =& \sigma \left( Z_{(n)} - \sigma Z_{(1)} \right) \\ =& \sigma R \left( Z_{1} , \cdots , Z_{n} \right) \end{align*}

であり、標本標準偏差SS

S(σZ1+θ,,σZn+θ)=S(X1,,Xn)=1n1i=1n(XiXˉ)2=1n1i=1n(σZi+θσZˉθ)2=1n1i=1nσ2(ZiZˉ)2=σ1n1i=1n(ZiZˉ)2=σS(Z1,,Zn) \begin{align*} & S \left( \sigma Z_{1} + \theta , \cdots , \sigma Z_{n} + \theta \right) \\ =& S \left( X_{1} , \cdots , X_{n} \right) \\ =& \sqrt{ {{1} \over {n-1}} \sum_{i=1}^{n} \left( X_{i} - \bar{X} \right)^{2} } \\ =& \sqrt{ {{1} \over {n-1}} \sum_{i=1}^{n} \left( \sigma Z_{i} + \theta - \sigma \bar{Z} - \theta \right)^{2} } \\ =& \sqrt{ {{1} \over {n-1}} \sum_{i=1}^{n} \sigma^{2} \left( Z_{i} - \bar{Z} \right)^{2} } \\ =& \sigma \sqrt{ {{1} \over {n-1}} \sum_{i=1}^{n} \left( Z_{i} - \bar{Z} \right)^{2} } \\ =& \sigma S \left( Z_{1} , \cdots , Z_{n} \right) \end{align*}

である。これらの比R/SR/Sは本来θ\thetaを排除してθ\thetaに関する補助統計量であり、比の分子分母でσ\sigmaが約分されるため、σ\sigmaに関しても補助統計量となる。これは、データの散布度を両方が示す点で直感的に納得がいく話である。


  1. Casella. (2001). Statistical Inference(2nd Edition): p306. ↩︎