集団の同質性検定
仮説検定 1
多項実験でカテゴリが個のカテゴリカルデータを個の母集団から得たと仮定しよう。番目の母集団で要素が番目のカテゴリに属する確率をとする。このとき、番目の母集団の比率ベクトルをと表す。ピアソンのカイ二乗検定統計量を使用した以下の仮説検定を独立性の検定test of independenceと呼ぶ。
- : すべての母集団の要素の比率が同一である:
- : 要素の比率が同一でない母集団が少なくとも一つ存在する。
検定統計量
検定統計量にはピアソンのカイ二乗検定統計量を使用する。 ここで、番目の母集団に属しながら番目のカテゴリに属するデータの度数を観測度数、番目の母集団に属するサンプルの数と番目のカテゴリに属するサンプルの数の積とサンプルサイズの比を期待度数と呼ぶ。この検定統計量はカイ二乗分布に従い、その自由度は母集団の数とカテゴリの数からずつ引いた値の積であるである。
説明
自由度
それぞれの周辺確率を考えると上記のような制約条件がつくため、各母集団から個、カテゴリから個の確率が分かれば残り一つが決定されるのと同じである。よって自由度はその積であるになるべきである。
X\Y | y1 | y2 |
---|---|---|
x1 | 0000 | 0000 |
x2 | 0000 | 0000 |
x3 | 0000 | 0000 |
例えば上記のような分割表は母集団が個、カテゴリが個のカテゴリを持つデータを示し、その自由度はとなる。
同質性 2
実際、同質性の検定のプロセスは独立性の検定と全く同じであり、実際のところ独立性の検定の延長と見ることができるが、帰無仮説と対立仮説及びその解釈が異なるだけである。独立性の検定では二つのカテゴリが存在し、これらの関係により行の合計と列の合計がランダムに決定されるが、同質性の検定では各母集団のサンプルサイズは定められており、比率のベクトルによってがランダムに決定されると考える。この比率のベクトルがに関係なく一貫性を持つということは母集団による特別な違いがないということであり、結果的には母集団の選択とカテゴリの比率が独立であることに通ずる。
簡単な例として大学の科目で男性と女性という二つの性別によって成績に違いがあるかを調べるには、以下のように分割表を作成して同質性の検定を行うことができる。
性別 | A | B | C | D | F | 計 |
---|---|---|---|---|---|---|
男性 | 29 | 52 | 26 | 17 | 6 | 130 |
女性 | 6 | 75 | 98 | 62 | 9 | 250 |
- : 性別に関係なく成績の比率が同一である。
- : 性別に関係なく成績の比率が同一でない。
見ての通り、成績というカテゴリの階級はAからFまで五つもあり、これを単に13:25の比率で当てはめて違いを解釈するのは困難である。有意水準で男性と女性の成績比率が統計的に同一であるかを確認するには、でであるので、自由度のカイ二乗分布から得たと検定統計量を比較すればよい。実際の計算結果はであり、を大きく上回るので、有意水準で性別による成績の違いがあると結論付けられる。
注意すべきは、このような統計的解釈があくまで「同一でない」というところでとどまるべきであるということだ。もちろん、目があれば誰でもこの架空の例で男性の成績が優れていることを理解できるが、通りすがりに「男たちがよくできるね」と言うことができるかもしれない。しかし、そのような判断は同質性の検定ではなく、「おそらくAが一番良くてFが一番悪いだろう」という直感から来るものである。たとえそのような情報が与えられたとしても、同質性の検定の帰無仮説と対立仮説では優劣について言及していないし、これは実際に数学的なバックグラウンドがそうであるからである。