logo

二つの母平均の差に関する大標本仮説検定 📂統計的検定

二つの母平均の差に関する大標本仮説検定

仮説検定 1

二つの独立な母集団がそれぞれ(μ1,σ12)\left( \mu_{1} , \sigma_{1}^{2} \right)(μ2,σ22)\left( \mu_{2} , \sigma_{2}^{2} \right)の分布に従うとしよう。標本の数がn1,n2>30n_{1} , n_{2} > 30の場合、つまり標本が大きい場合、二つの母集合の平均の差に対する候補D0D_{0}に対する仮説検定は以下の通りだ。

  • H0H_{0}μ1μ2=D0\mu_{1} - \mu_{2} = D_{0}だ。つまり、母集団の平均の差はD0D_{0}だ。
  • H1H_{1}μ1μ2=D0\mu_{1} - \mu_{2} = D_{0}でない。つまり、母集団の平均の差はD0D_{0}ではない。

検定統計量

検定統計量は、母標準偏差σ1,σ2\sigma_{1}, \sigma_{2}を知っているかどうかによって少し異なって計算される。

  • σ1,σ2\sigma_{1} , \sigma_{2}を知っている場合:母標準偏差σ1,σ2\sigma_{1} , \sigma_{2}をそのまま使って次のようになる。 Z=(X1X2)D0σ12n1+σ22n2 Z = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ {{ \sigma_{1}^{2} } \over { n_{1} }} + {{ \sigma_{2}^{2} } \over { n_{2} }} } }}
  • σ1,σ2\sigma_{1}, \sigma_{2}を知らない場合:標本標準偏差s1,s2s_{1}, s_{2}を使って次のようになる。 Z=(X1X2)D0s12n1+s22n2 Z = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ {{ s_{1}^{2} } \over { n_{1} }} + {{ s_{2}^{2} } \over { n_{2} }} } }}

説明

たぶんD0D_{0}で最もよく使われるのは00だろう、なぜなら「二つの分布の母集平均が同じか」のような核心的な部分が知りたい場合が多いからだ。「正確な差がどの程度か」よりも。検定統計量の形で最も複雑に見えるのは分母にあるσ12n1+σ22n2\sqrt{ {{ \sigma_{1}^{2} } \over { n_{1} }} + {{ \sigma_{2}^{2} } \over { n_{2} }} }だが、数理統計学を学んだ後にその導出を知ると、勉強が面白くなる。新入生は残念ながら覚えなければならない。

導出

中心極限定理{Xk}k=1n\left\{ X_{k} \right\}_{k=1}^{n}iid確率変数で分布(μ,σ2)\left( \mu, \sigma^2 \right) に従うとしよう。その場合、nn \to \inftyの時 nXμσDN(0,1) \sqrt{n} {{ \overline{X} - \mu } \over {\sigma}} \overset{D}{\to} N (0,1)

二つの母集団から得た大きな標本だと仮定するので、母集団の分布が何であれ、X1,X2\overline{X}_{1}, \overline{X}_{2}中心極限定理に従って正規分布に従う。 X1=1n1k=1n1X1N(μ1,σ12n1)X2=1n2k=1n2X2N(μ2,σ22n2) \begin{align*} \overline{X}_{1} =& {{ 1 } \over { n_{1} }} \sum_{k=1}^{n_{1}} X_{1} \sim N \left( \mu_{1} , {{ \sigma_{1}^{2} } \over { n_{1} }} \right) \\ \overline{X}_{2} =& {{ 1 } \over { n_{2} }} \sum_{k=1}^{n_{2}} X_{2} \sim N \left( \mu_{2} , {{ \sigma_{2}^{2} } \over { n_{2} }} \right) \end{align*}

正規分布の和:確率変数X1,,XnX_{1} , \cdots , X_{n}たちが相互に独立だとしよう。

  • XiN(μi,σi2)X_i \sim N( \mu_{i}, \sigma_{i}^{2} )であれば与えられたベクトル(a1,,an)Rn(a_{1} , \cdots , a_{n}) \in \mathbb{R}^{n}に対して i=1naiXiN(i=1naiμi,i=1nai2σi2) \displaystyle \sum_{i=1}^{n} a_{i} X_{i} \sim N \left( \sum_{i=1}^{n} a_{i } \mu_{i} , \sum_{i=1}^{n} a_{i }^2 \sigma_{i}^2 \right)

与えられたベクトル(a1,a2)=(1,1)R2\left( a_{1} , a_{2} \right) = (1, -1) \in \mathbb{R}^{2}に対して X1X2=a1X1+a2X2N(i=12aiμi,i=12ai2σi2)N(μ1μ2,12σ2n1+(1)2σ2n2) \begin{align*} \overline{X}_{1} - \overline{X}_{2} =& a_{1} \overline{X}_{1} + a_{2} \overline{X}_{2} \\ \sim& N \left( \sum_{i=1}^{2} a_{i } \mu_{i} , \sum_{i=1}^{2} a_{i }^2 \sigma_{i}^2 \right) \\ \sim& N \left( \mu_{1} - \mu_{2} , 1^{2} \cdot {{ \sigma^{2} } \over { n_{1} }} + (-1)^{2} \cdot {{ \sigma^{2} } \over { n_{2} }} \right) \end{align*} だから帰無仮説H0:μ1μ2=D0H_{0} : \mu_{1} - \mu_{2} = D_{0}の下で Z=(X1X2)D0σ12n1+σ22n2N(0,1) Z = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ {{ \sigma_{1}^{2} } \over { n_{1} }} + {{ \sigma_{2}^{2} } \over { n_{2} }} } }} \sim N \left( 0, 1 \right) 標準正規分布N(0,1)N (0,1)にほぼ近似した分布に従う。同様に、標本が大きい場合sσs \approx \sigma、母集団の分散を知らないときは、σ\sigmaの代わりにssを使用しても問題ない。確率変数YY標準正規分布に従うとき、有意水準α\alphaに対してP(Yzα)=αP \left( Y \ge z_{\alpha} \right) = \alphaを満たすzαz_{\alpha}に対してH0H_{0}が棄却されるのは次のように同等だ。 Zzα \left| Z \right| \ge z_{\alpha} これは帰無仮説のもとでμ1μ2=D0\mu_{1} - \mu_{2} = D_{0}を信じるにはX1X2\overline{X}_{1} - \overline{X}_{2}D0D_{0}から遠すぎるという意味だ。


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p363. ↩︎