logo

二つの母平均の差に関する大標本仮説検定 📂統計的検定

二つの母平均の差に関する大標本仮説検定

仮説検定 1

二つの独立な母集団がそれぞれ$\left( \mu_{1} , \sigma_{1}^{2} \right)$と$\left( \mu_{2} , \sigma_{2}^{2} \right)$の分布に従うとしよう。標本の数が$n_{1} , n_{2} > 30$の場合、つまり標本が大きい場合、二つの母集合の平均の差に対する候補$D_{0}$に対する仮説検定は以下の通りだ。

  • $H_{0}$:$\mu_{1} - \mu_{2} = D_{0}$だ。つまり、母集団の平均の差は$D_{0}$だ。
  • $H_{1}$:$\mu_{1} - \mu_{2} = D_{0}$でない。つまり、母集団の平均の差は$D_{0}$ではない。

検定統計量

検定統計量は、母標準偏差$\sigma_{1}, \sigma_{2}$を知っているかどうかによって少し異なって計算される。

  • $\sigma_{1} , \sigma_{2}$を知っている場合:母標準偏差$\sigma_{1} , \sigma_{2}$をそのまま使って次のようになる。 $$ Z = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ {{ \sigma_{1}^{2} } \over { n_{1} }} + {{ \sigma_{2}^{2} } \over { n_{2} }} } }} $$
  • $\sigma_{1}, \sigma_{2}$を知らない場合:標本標準偏差$s_{1}, s_{2}$を使って次のようになる。 $$ Z = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ {{ s_{1}^{2} } \over { n_{1} }} + {{ s_{2}^{2} } \over { n_{2} }} } }} $$

説明

たぶん$D_{0}$で最もよく使われるのは$0$だろう、なぜなら「二つの分布の母集平均が同じか」のような核心的な部分が知りたい場合が多いからだ。「正確な差がどの程度か」よりも。検定統計量の形で最も複雑に見えるのは分母にある$\sqrt{ {{ \sigma_{1}^{2} } \over { n_{1} }} + {{ \sigma_{2}^{2} } \over { n_{2} }} }$だが、数理統計学を学んだ後にその導出を知ると、勉強が面白くなる。新入生は残念ながら覚えなければならない。

導出

中心極限定理:$\left\{ X_{k} \right\}_{k=1}^{n}$がiid確率変数で分布$\left( \mu, \sigma^2 \right) $に従うとしよう。その場合、$n \to \infty$の時 $$ \sqrt{n} {{ \overline{X} - \mu } \over {\sigma}} \overset{D}{\to} N (0,1) $$

二つの母集団から得た大きな標本だと仮定するので、母集団の分布が何であれ、$\overline{X}_{1}, \overline{X}_{2}$は中心極限定理に従って正規分布に従う。 $$ \begin{align*} \overline{X}_{1} =& {{ 1 } \over { n_{1} }} \sum_{k=1}^{n_{1}} X_{1} \sim N \left( \mu_{1} , {{ \sigma_{1}^{2} } \over { n_{1} }} \right) \\ \overline{X}_{2} =& {{ 1 } \over { n_{2} }} \sum_{k=1}^{n_{2}} X_{2} \sim N \left( \mu_{2} , {{ \sigma_{2}^{2} } \over { n_{2} }} \right) \end{align*} $$

正規分布の和:確率変数$X_{1} , \cdots , X_{n}$たちが相互に独立だとしよう。

  • $X_i \sim N( \mu_{i}, \sigma_{i}^{2} )$であれば与えられたベクトル$(a_{1} , \cdots , a_{n}) \in \mathbb{R}^{n}$に対して $$ \displaystyle \sum_{i=1}^{n} a_{i} X_{i} \sim N \left( \sum_{i=1}^{n} a_{i } \mu_{i} , \sum_{i=1}^{n} a_{i }^2 \sigma_{i}^2 \right) $$

与えられたベクトル$\left( a_{1} , a_{2} \right) = (1, -1) \in \mathbb{R}^{2}$に対して $$ \begin{align*} \overline{X}_{1} - \overline{X}_{2} =& a_{1} \overline{X}_{1} + a_{2} \overline{X}_{2} \\ \sim& N \left( \sum_{i=1}^{2} a_{i } \mu_{i} , \sum_{i=1}^{2} a_{i }^2 \sigma_{i}^2 \right) \\ \sim& N \left( \mu_{1} - \mu_{2} , 1^{2} \cdot {{ \sigma^{2} } \over { n_{1} }} + (-1)^{2} \cdot {{ \sigma^{2} } \over { n_{2} }} \right) \end{align*} $$ だから帰無仮説$H_{0} : \mu_{1} - \mu_{2} = D_{0}$の下で $$ Z = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ {{ \sigma_{1}^{2} } \over { n_{1} }} + {{ \sigma_{2}^{2} } \over { n_{2} }} } }} \sim N \left( 0, 1 \right) $$ は標準正規分布$N (0,1)$にほぼ近似した分布に従う。同様に、標本が大きい場合$s \approx \sigma$、母集団の分散を知らないときは、$\sigma$の代わりに$s$を使用しても問題ない。確率変数$Y$が標準正規分布に従うとき、有意水準$\alpha$に対して$P \left( Y \ge z_{\alpha} \right) = \alpha$を満たす$z_{\alpha}$に対して$H_{0}$が棄却されるのは次のように同等だ。 $$ \left| Z \right| \ge z_{\alpha} $$ これは帰無仮説のもとで$\mu_{1} - \mu_{2} = D_{0}$を信じるには$\overline{X}_{1} - \overline{X}_{2}$が$D_{0}$から遠すぎるという意味だ。


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p363. ↩︎