logo

集団の適合度検定 📂統計的検定

集団の適合度検定

仮説検定 1

$k$個のカテゴリが各々$p_{j} > 0$の確率で選ばれる多項実験において、$n$回の独立した試行から得られたカテゴリカルデータが与えられたとしよう。ピアソンのカイ二乗検定統計量を使用する次の仮説検定適合度検定goodness of fit testと呼ばれる。

  • $H_{0}$:与えられたデータは理論的な確率に適合してサンプリングされた。
  • $H_{1}$:与えられたデータは理論的な確率に適合してサンプリングされていない。

検定統計量

検定統計量ピアソンのカイ二乗検定統計量を使用する。 $$ \mathcal{X}^{2} = \sum_{j=1}^{k} {{ \left( O_{j} - E_{j} \right)^{2} } \over { E_{j} }} $$ ここで$j$番目のカテゴリーに属するデータの度数$O_{j}$を観測度数、サンプルサイズと確率の積$p_{j}$$E := n p_{j}$を期待度数と呼ぶ。この検定統計量はカイ二乗分布に従い、その自由度はカテゴリの数$k$から$1$を引いた$(k-1)$である。

説明

適合度とは?

まず、適合度検定という表現自体について触れておく必要があるだろう。データサイエンス全般で適合fitという言葉は日常社会とは少し使い方が異なることを念頭に置いた方が良い。「適合させる」とか「適合をしてから」といった表現は通常では成り立たないが、この分野では説明してる人が急いでいるときに時々出てくる。これは、Fitという英単語は動詞として使うことができるが、その翻訳として選ばれた適合が動詞としての言語習慣が定着していないからだ。「フィッティングする」とか「フィッティングをした後」という動名詞形フィッティングを使えば、先ほどよりもずっと意味が通るだろう。

それではそのフィッティングとは何か?適合ではなく、フィッティングと言う場合、ほぼ一般的な用法と一致するが、全ての商品がデータを説明するある理論的なモデルmodelにうまく適合しているかどうかの尺度を適合度goodness of fitと呼ぶのである。

簡単に言えば、データが理論とどの程度一致しているかを適合度と呼び、適合度検定はその数値について統計的にテストすることである。

使い道

適合度検定の使い道は無限大で、血液型、MBTI、性比、従事する業種の分布などがある。また、先立って多項実験を前提としているため、カテゴリカルデータでのみ使用可能なように見えるが、実際には量的データの階級化を通じて何でもカテゴリカルデータに変換できるので、理論的に分布が明らかにされたデータであればどこでも適用できる。

メンデルの遺伝法則

mendel.jpg

メンデルの遺伝法則によると、色については黄色が優性、緑色が劣性であり、丸いものが優性、しわしわのものが劣性の場合、黄色で丸い純系統と緑色でしわしわの純系統を交配して得た第一世代の表現型は優性に従って黄色で丸く、二世代目には黄色と緑が3:1、丸いものとしわしわのものが3:1の比率で現れて全体としては9:3:3:1の比率が現れるとされる。2

きまりきしわみどりまみどりしわ
観測度数77323123859

このように得られた2世代の豆の観測度数が上記のようだとする3。全体の標本数が$n = 1301$で、カテゴリの数が$k = 4$で、この有意水準$\alpha = 0.05$で、実験の結果が我々の理論的予想の9:3:3:1に適合するか確認しよう。

  • $H_{0}$:実験の結果はメンデルの遺伝法則に適合する。
  • $H_{1}$:実験の結果はメンデルの遺伝法則に適合しない。

まず、帰無仮説と対立仮説は上記の通りであり、そのピアソンのカイ二乗検定統計量は以下のように計算される。 $$ \begin{align*} \mathcal{X}^{2} =& \sum_{j=1}^{k} {{ \left( O_{j} - E_{j} \right)^{2} } \over { E_{j} }} \\ =& {{ \left( 773 - n 9 / 16 \right)^{2} } \over { n 9 / 16 }} + {{ \left( 231 - n 3 / 16 \right)^{2} } \over { n 3 / 16 }} + {{ \left( 238 - n 3 / 16 \right)^{2} } \over { n 3 / 16 }} + {{ \left( 59 - n / 16 \right)^{2} } \over { n / 16 }} \\ =& 9.20 \end{align*} $$ 与えられた有意水準$\alpha = 0.05$に対して、棄却域の上限は$\chi_{1 - \alpha}^{2} = 7.815$であり、$\chi_{1 - \alpha}^{2} < \mathcal{X}^{2}$であるため、帰無仮説が棄却される。つまり、有意水準$\alpha = 0.05$で、上記の実験結果はメンデルの遺伝法則に適合しないということである。

実験が少し変だと思って、改めて見ると、黄まりと緑しわが773:59で約13:1の比率を形成しており、理論的に予想された9:1を大きく逸脱している。他の表現型と比較しても黄まりは多すぎ、緑しわは少なすぎるが、適合度検定はそれを目分量ではなく正確に統計的に確認したものである。

ここで、$\mathcal{X}^{2}$の値が大きいという事実が使用されたという点に注目しよう。ピアソンのカイ二乗検定統計量は本質的に観測度数と期待度数の間の乖離が大きくなるほど大きくなる値であるため、棄却域がどうこうとか右側検定がどうこうという式を見ずに覚えると難しく感じるだけで面白くもなんともない。少なくとも適合度検定の文脈では、$\mathcal{X}^{2}$は実験が理論と一致しないほど受けるペナルティ点と見なしても良いだろう。


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p597. ↩︎

  2. http://legacy.biotechlearn.org.nz/themes/mendel_and_inheritance/images/inheritance_of_multiple_traits_in_peas ↩︎

  3. 경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p269. ↩︎