二つの母平均の差に対する小標本仮説検定
仮説検証 1
互いに独立した二つの母集団がそれぞれ正規分布$N \left( \mu_{1} , \sigma_{1}^{2} \right)$と$N \left( \mu_{2} , \sigma_{2}^{2} \right)$に従っており$\sigma_{1}^{2} = \sigma^{2} = \sigma_{2}^{2}$、つまり、それぞれの母分散を知ることはできないが、等しいとする。標本が少標本であり、標本の数が$n_{1} , n_{2} < 30$の場合、二つの母平均の差に関する仮説$D_{0}$の検討は次の通りだ。
- $H_{0}$: $\mu_{1} - \mu_{2} = D_{0}$。つまり、母平均の差は$D_{0}$だ。
- $H_{1}$: $\mu_{1} - \mu_{2} = D_{0}$じゃない。つまり、母平均の差は$D_{0}$じゃない。
検定統計量
検定統計量は標本標準偏差$s_{1}, s_{2}$を使って次のようになる。 $$ t = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ s_{p}^{2} \left( {{ 1 } \over { n_{1} }} + {{ 1 } \over { n_{2} }} \right) } }} $$ ここで、$s_{p}^{2}$は次のように計算される標本合同分散だ。 $$ s_{p}^{2} = {{ \left( n_{1} - 1 \right) s_{1}^{2} + \left( n_{2} - 1 \right) s_{2}^{2} } \over { n_{1} + n_{2} - 2 }} $$ この検定統計量はt-分布に従うが、その自由度$\mathrm{df}$は床関数$\lfloor \cdot \rfloor$に基づいて次のように計算される。 $$ \mathrm{df} = \left\lfloor {{ \left( {{ s_{1}^{2} } \over { n_{1} }} + {{ s_{2}^{2} } \over { n_{2} }} \right)^{2} } \over { {{ \left( s_{1}^{2} / n_{1} \right)^{2} } \over { n_{1} - 1 }} + {{ \left( s_{2}^{2} / n_{2} \right)^{2} } \over { n_{2} - 1 }} }} \right\rfloor $$
導出
戦略:基本的に、新入生はもちろん、ある程度経験を積んだ学部生でも理解は難しく、修士以上のレベルでは直感的に理解できるものだ。逆に言えば、そこまで勉強していれば、実は補助定理をいくつか並べるだけで済む。
標本合同分散: 各母分散を知ることはできないが等しいとすることができる時、母分散に対する不偏推定量は次の通りだ。 $$ S_{p}^{2} := {{ \left( n_{1} - 1 \right) S_{1}^{2} + \cdots + \left( n_{m} - 1 \right) S_{m}^{2} } \over { \left( n_{1} - 1 \right) + \cdots + \left( n_{m} - 1 \right) }} = {{ \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} } \over { \sum_{i=1}^{m} \left( n_{i} - 1 \right) }} $$
セータースウェイト近似: $k = 1, \cdots , n$とし$Y_{k} \sim \chi_{r_{k}}^{2}$で$a_{k} \in \mathbb{R}$とする。ある$\nu > 0$に対して $$ \sum_{k=1}^{n} a_{k} Y_{k} \sim {{ \chi_{\nu}^{2} } \over { \nu }} $$ と仮定すれば、その推定量として次の$\hat{\nu}$を使うことができる。 $$ \hat{\nu} = {{ \left( \sum_{k} a_{k} Y_{k} \right)^{2} } \over { \sum_{k} {{ a_{k}^{2} } \over { r_{k} }} Y_{k}^{2} }} $$
独立な正規分布とカイ二乗分布からのスチューデントのt-分布の導出: 二つの確率変数$W,V$が独立であり$W \sim N(0,1)$、$V \sim \chi^{2} (r)$とすると $$ T = { {W} \over {\sqrt{V/r} } } \sim t(r) $$
$$ t = {{ \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \sqrt{ s_{p}^{2} \left( {{ 1 } \over { n_{1} }} + {{ 1 } \over { n_{2} }} \right) } }} = {{ { \left( \overline{X}_{1} - \overline{X}_{2} \right) - D_{0} } \over { \displaystyle \sigma / \sqrt{ {{ 1 } \over { n_{1} }} + {{ 1 } \over { n_{2} }} } } } \over { \sqrt{ \displaystyle {{ \textrm{df} s_{p}^{2} } \over { \sigma^{2} }} / \textrm{df} } }} $$ セータースウェイト近似によると、右側の分母は自由度$\mathrm{df}$のカイ二乗分布に従い、分子は標準正規分布に従い、$t$は近似的に自由度$\mathrm{df}$のt-分布に従う。確率変数$Y$がt-分布$t(\mathrm{df})$に従うとすると、有意水準$\alpha$において$P \left( Y \ge t_{\alpha} \right) = \alpha$を満たす$t_{\alpha}$に対して$H_{0}$が棄却されるということは次の通りだ。 $$ \left| t \right| \ge t_{\alpha} $$ これは、帰無仮説に従って$\mu_{1} - \mu_{2} = D_{0}$と信じるには$\overline{X}_{1} - \overline{X}_{2}$が$D_{0}$から遠くにあるという意味になる。
■
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p400. ↩︎