logo

集団の同質性検定 📂統計的検定

集団の同質性検定

仮説検定 1

多項実験でカテゴリがCC個のカテゴリカルデータRR個の母集団から得たと仮定しよう。i=1,,Ri = 1 , \cdots , R番目の母集団で要素がj=1,,Cj = 1 , \cdots , C番目のカテゴリに属する確率をpijp_{ij}とする。このとき、ii番目の母集団の比率ベクトルpi=(pi1,,piC)\mathbf{p}_{i} = \left( p_{i1} , \cdots , p_{iC} \right)と表す。ピアソンのカイ二乗検定統計量を使用した以下の仮説検定独立性の検定test of independenceと呼ぶ。

  • H0H_{0}: すべての母集団の要素の比率が同一である: p1==pR\mathbf{p}_{1} = \cdots = \mathbf{p}_{R}
  • H1H_{1}: 要素の比率が同一でない母集団が少なくとも一つ存在する。

検定統計量

検定統計量にはピアソンのカイ二乗検定統計量を使用する。 X2=i=1Rj=1C(OijEij)2Eij \mathcal{X}^{2} = \sum_{i=1}^{R} \sum_{j=1}^{C} {{ \left( O_{ij} - E_{ij} \right)^{2} } \over { E_{ij} }} ここで、ii番目の母集団に属しながらjj番目のカテゴリに属するデータの度数OijO_{ij}観測度数ii番目の母集団に属するサンプルの数rir_{i}jj番目のカテゴリに属するサンプルの数cjc_{j}の積ricjr_{i} c_{j}とサンプルサイズnnの比E:=ricj/nE := r_{i} c_{j} / n期待度数と呼ぶ。この検定統計量はカイ二乗分布に従い、その自由度は母集団の数RRとカテゴリの数CCから11ずつ引いた値の積である(R1)(C1)(R-1)(C-1)である。

説明

自由度

pi=j1=1Cpij=rin    i=1Rpi=1pj=i=1Rpij=cjn    j=1Cpj=1 \begin{align*} p_{i} = \sum_{j1=1}^{C} p_{ij} = {\frac{ r_{i} }{ n }} \implies & \sum_{i=1}^{R} p_{i} = 1 \\ p_{j} = \sum_{i=1}^{R} p_{ij} = {\frac{ c_{j} }{ n }} \implies & \sum_{j=1}^{C} p_{j} = 1 \end{align*} それぞれの周辺確率を考えると上記のような制約条件がつくため、各母集団からR1R-1個、カテゴリからC1C - 1個の確率が分かれば残り一つが決定されるのと同じである。よって自由度はその積である(R1)(C1)(R - 1) (C - 1)になるべきである。

X\Yy1y2
x100000000
x200000000
x300000000

例えば上記のような分割表は母集団がR=3R = 3個、カテゴリがC=2C = 2個のカテゴリを持つデータを示し、その自由度は(31)(21)=2(3-1)(2-1) = 2となる。

同質性 2

実際、同質性の検定のプロセスは独立性の検定と全く同じであり、実際のところ独立性の検定の延長と見ることができるが、帰無仮説と対立仮説及びその解釈が異なるだけである。独立性の検定では二つのカテゴリが存在し、これらの関係により行の合計rir_{i}と列の合計cjc_{j}がランダムに決定されるが、同質性の検定では各母集団のサンプルサイズrir_{i}は定められており、比率のベクトルpi\mathbf{p}_{i}によってOijO_{ij}がランダムに決定されると考える。この比率のベクトルpi\mathbf{p}_{i}iiに関係なく一貫性を持つということは母集団による特別な違いがないということであり、結果的には母集団の選択とカテゴリの比率が独立であることに通ずる。

簡単な例として大学の科目で男性と女性という二つの性別によって成績に違いがあるかを調べるには、以下のように分割表を作成して同質性の検定を行うことができる。

性別ABCDF
男性295226176130
女性67598629250
  • H0H_{0}: 性別に関係なく成績の比率が同一である。
  • H1H_{1}: 性別に関係なく成績の比率が同一でない。

見ての通り、成績というカテゴリの階級はAからFまで五つもあり、これを単に13:25の比率で当てはめて違いを解釈するのは困難である。有意水準α=0.05\alpha = 0.05で男性と女性の成績比率が統計的に同一であるかを確認するには、R=2R = 2R=5R = 5であるので、自由度(21)(51)=4(2-1)(5-1) = 4カイ二乗分布から得たχ1α2(4)9.49\chi_{1 - \alpha}^{2} (4) \approx 9.49と検定統計量X2\mathcal{X}^{2}を比較すればよい。実際の計算結果はX254.889\mathcal{X}^{2} \approx 54.889であり、χ1α2(4)\chi_{1 - \alpha}^{2} (4)を大きく上回るので、有意水準5%5\%で性別による成績の違いがあると結論付けられる。

注意すべきは、このような統計的解釈があくまで「同一でない」というところでとどまるべきであるということだ。もちろん、目があれば誰でもこの架空の例で男性の成績が優れていることを理解できるが、通りすがりに「男たちがよくできるね」と言うことができるかもしれない。しかし、そのような判断は同質性の検定ではなく、「おそらくAが一番良くてFが一番悪いだろう」という直感から来るものである。たとえそのような情報が与えられたとしても、同質性の検定の帰無仮説と対立仮説では優劣について言及していないし、これは実際に数学的なバックグラウンドがそうであるからである。

関連閲覧


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p610. ↩︎

  2. 경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p274. ↩︎