ロケーション-スケール族の補助統計量
定理 1
$X_{1} , \cdots , X_{n}$がロケーションファミリーであり、かつスケールファミリーから来るランダムサンプルであるとしよう。二つの統計量 $T_{1} \left( X_{1} , \cdots, X_{n} \right)$ と $T_{2} \left( X_{1} , \cdots , X_{n} \right)$ が全ての$x_{1} , \cdots , x_{n}$および全ての定数 $b \in \mathbb{R}$、$a > 0$に対して $$ T_{i} \left( a x_{1} + b , \cdots , a x_{n} + b \right) = a T_{i} \left( x_{1} , \cdots , x_{n} \right) $$ を満たすならば、その比 $T_{1}/T_{2}$ は補助統計量である。
証明
$X_{k}$ はロケーション-スケールファミリーから来ているので、あるロケーションパラメーター$\theta \in \mathbb{R}$とスケールパラメーター$\sigma > 0$について次のように表せる。 $$ X_{k} = \theta + \sigma Z_{k} $$
ここで、$Z_{k}$は$f (z ; \theta = 0, \sigma = 1)$から抽出されるサンプルを意味する。仮定によれば$T_{1}$と$T_{2}$の比は
$$ {{T_{1} \left( X_{1} , \cdots , X_{n} \right) } \over {T_{2} \left( X_{1} , \cdots , X_{n} \right) }} = { \sigma {T_{1} \left( Z_{1} , \cdots , Z_{n} \right) } \over {\sigma T_{2} \left( Z_{1} , \cdots , Z_{n} \right) }} = { {T_{1} \left( Z_{1} , \cdots , Z_{n} \right) } \over { T_{2} \left( Z_{1} , \cdots , Z_{n} \right)}} $$
であるので、$\theta$と$\sigma$に依存しない補助統計量である。
■
説明
例
例として、サンプルの範囲$R$と標本標準偏差$S$の比は補助統計量である。まず範囲rangeは
$$ \begin{align*} & R \left( \sigma Z_{1} + \theta , \cdots , \sigma Z_{n} + \theta \right) \\ =& R \left( X_{1} , \cdots , X_{n} \right) \\ =& X_{(n)} - X_{(1)} \\ =& \sigma Z_{(n)} + \theta - \sigma Z_{(1)} - \theta \\ =& \sigma \left( Z_{(n)} - \sigma Z_{(1)} \right) \\ =& \sigma R \left( Z_{1} , \cdots , Z_{n} \right) \end{align*} $$
であり、標本標準偏差$S$は
$$ \begin{align*} & S \left( \sigma Z_{1} + \theta , \cdots , \sigma Z_{n} + \theta \right) \\ =& S \left( X_{1} , \cdots , X_{n} \right) \\ =& \sqrt{ {{1} \over {n-1}} \sum_{i=1}^{n} \left( X_{i} - \bar{X} \right)^{2} } \\ =& \sqrt{ {{1} \over {n-1}} \sum_{i=1}^{n} \left( \sigma Z_{i} + \theta - \sigma \bar{Z} - \theta \right)^{2} } \\ =& \sqrt{ {{1} \over {n-1}} \sum_{i=1}^{n} \sigma^{2} \left( Z_{i} - \bar{Z} \right)^{2} } \\ =& \sigma \sqrt{ {{1} \over {n-1}} \sum_{i=1}^{n} \left( Z_{i} - \bar{Z} \right)^{2} } \\ =& \sigma S \left( Z_{1} , \cdots , Z_{n} \right) \end{align*} $$
である。これらの比$R/S$は本来$\theta$を排除して$\theta$に関する補助統計量であり、比の分子分母で$\sigma$が約分されるため、$\sigma$に関しても補助統計量となる。これは、データの散布度を両方が示す点で直感的に納得がいく話である。
Casella. (2001). Statistical Inference(2nd Edition): p306. ↩︎