logo

集団の適合度検定 📂統計的検定

集団の適合度検定

仮説検定 1

kk個のカテゴリーがそれぞれ理論的にpj>0p_{j} > 0の確率で選ばれる多項実験で、nn回の独立した試行により得られたカテゴリーデータが与えられていると仮定しよう。ピアソンカイ二乗検定統計量を用いた次の仮説検定適合度検定goodness of fit testという。

  • H0H_{0}: 与えられたデータは理論的な確率に合うようにサンプリングされた。
  • H1H_{1}: 与えられたデータは理論的な確率に合わない形でサンプリングされた。

検定統計量

検定統計量ピアソンカイ二乗検定統計量を用いる。 X2=j=1k(OjEj)2Ej \mathcal{X}^{2} = \sum_{j=1}^{k} {{ \left( O_{j} - E_{j} \right)^{2} } \over { E_{j} }} ここで、jj番目のカテゴリーに属するデータの度数OjO_{j}観測度数、サンプルサイズnnと確率pjp_{j}の積であるE:=npjE := n p_{j}期待度数という。この検定統計量はカイ二乗分布に従うが、その自由度はカテゴリーの数kkから11を引いた(k1)(k-1)である。

説明

自由度

確率p1,,pkp_{1} , \cdots , p_{k}j=1kpj=1\sum_{j=1}^{k} p_{j} = 1を満たすため、k1k-1個の確率のみわかれば残りの一つが決定することになる。それゆえ自由度はk1k-1でなければならない。

適合度?

まずGoodness of Fit Testという表現自体について説明しておく必要があるが、データサイエンス全般で適合fitという用語は一般社会での使われ方とはやや異なることを理解しておいたほうが良い。韓国語で적합하다(適合する)という形容詞は「적합 시키다(適合させる)」や「적합을 진행한 뒤(適合を行った後)」といった表現は不自然だが、この分野では説明者が急ぐあまり使ってしまうこともある。これはFitという英単語が動詞として使えるのに対し、意訳した적합が動詞として用いられにくいためだろう。したがって「피팅 시키다(フィッティングする)」や「피팅을 진행한 뒤(フィッティングを行った後)」といった具合に動名詞形Fittingとして使うほうが自然である。

ではそのフィッティングとは何か?適合ではなくフィッティングというと、ほぼ普遍的な用法に一致するが、商品となる服を着る職業をモデルと呼ぶように、フィットfitが良いという表現は「モデルによく似合うように服がぴったりしている」という意味を持つ。類似して、データサイエンスでは、データを説明する理論的なモデルmodelがデータに適合する程度についての尺度を適合度goodness of fitと呼ぶ。

要約すると、データが理論とどれほど一致するかの度合いを適合度と呼び、その適合度を統計的にテストするのが適合度検定である。

用途

血液型、MBTI、性別比、従事職業の分布など適合度検定の用途は非常に広範である。また多項実験を前提としているのでカテゴリーデータからのみ使用可能であるように見えるが、実際には量的データの階級化を通じて何でもカテゴリーデータに変換できるため、理論的に分布が明らかにされているデータであればどこでも適用可能である。

メンデルの遺伝法則

mendel.jpg

メンデルの遺伝法則によれば、上の図のように色に関しては黄色が優性、緑色が劣性であり、形状は丸いものが優性、しわがあるものが劣性である際に、黄色で丸い純系と緑色でしわがある純系を交配させて得られた第一世代の表現型は優性を持つため黄色で丸いが、第二世代では黄色と緑が3:1、丸いものとしわのあるものが3:1の比率で現れ、全体としては9:3:3:1の比率が現れるという2

黄色-丸黄色-しわ緑-丸緑-しわ
観測度数77323123859

こうして得られた2世代の豆の観測度数が上記のようである場合3、全体のサンプル数はn=1301n = 1301であり、カテゴリー数はk=4k = 4である。この条件下で有意水準α=0.05\alpha = 0.05で適合度検定を通じて、実験の結果が我々の理論的な予想である9:3:3:1に一致するか確認しよう。

  • H0H_{0}: 実験の結果はメンデルの遺伝法則に一致する。
  • H1H_{1}: 実験の結果はメンデルの遺伝法則に一致しない。

まず、帰無仮説および対立仮説は上記のようであり、そのピアソンカイ二乗検定統計量X2=j=1k(OjEj)2Ej=(773n9/16)2n9/16+(231n3/16)2n3/16+(238n3/16)2n3/16+(59n/16)2n/162.32+0.69+0.14+6.129.27 \begin{align*} \mathcal{X}^{2} =& \sum_{j=1}^{k} {{ \left( O_{j} - E_{j} \right)^{2} } \over { E_{j} }} \\ =& {{ \left( 773 - n 9 / 16 \right)^{2} } \over { n 9 / 16 }} + {{ \left( 231 - n 3 / 16 \right)^{2} } \over { n 3 / 16 }} + {{ \left( 238 - n 3 / 16 \right)^{2} } \over { n 3 / 16 }} + {{ \left( 59 - n / 16 \right)^{2} } \over { n / 16 }} \\ \approx & 2.32 + 0.69 + 0.14 + 6.12 \\ \approx & 9.27 \end{align*} のように計算される4。与えられた有意水準α=0.05\alpha = 0.05について、自由度33カイ二乗分布に従う棄却域の上限はχ1α2(3)7.815\chi_{1 - \alpha}^{2} (3) \approx 7.815であり、χ1α2<X2\chi_{1 - \alpha}^{2} < \mathcal{X}^{2}であるため、帰無仮説は棄却される。言い換えれば、この実験は有意水準α=0.05\alpha = 0.05でメンデルの遺伝法則に一致しない結果を示しているということである。

実験が少しおかしいということで再度見ると、黄色-丸と緑-しわは773:59で約13:1の比を成しており、理論的に予想される9:1から大きく外れている。他の表現型と比較しても黄色-丸が多過ぎ、緑-しわが少な過ぎるが、適合度検定はそれを目測ではなく、正確に統計的に確認したものである。

ここで実験が理論に一致しなかった根拠として、X2\mathcal{X}^{2}の値が大きいという事実が用いられた点に注目してほしい。ピアソンカイ二乗検定統計量は本質的に(OjEj)2\left( O_{j} - E_{j} \right)^{2}の和、すなわち観測度数と期待度数の間の乖離が激しくなるほど大きくなる値であり当然のことである。このような数式を見ず棄却域や右側検定について丸暗記することは難しいだけでなく面白くもない。少なくとも適合度検定において、X2\mathcal{X}^{2}は実験が理論と一致しないならば受ける罰点と見て差し支えない。

関連項目


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p597. ↩︎

  2. http://legacy.biotechlearn.org.nz/themes/mendel_and_inheritance/images/inheritance_of_multiple_traits_in_peas ↩︎

  3. 경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p269. ↩︎

  4. 참고문헌에서는 9.209.20 으로 적어두었는데, 초둥에서 계산이 틀린 것을 발견해서 직접 계산해보니 9.279.27 이 나왔다. ↩︎