集団の適合度検定

仮説検定 ¹

$k$個のカテゴリーがそれぞれ理論的に$p_{j} > 0$の確率で選ばれる多項実験で、$n$回の独立した試行により得られたカテゴリーデータが与えられていると仮定しよう。ピアソンカイ二乗検定統計量を用いた次の仮説検定を適合度検定^{goodness of fit test}という。

$H_{0}$: 与えられたデータは理論的な確率に合うようにサンプリングされた。
$H_{1}$: 与えられたデータは理論的な確率に合わない形でサンプリングされた。

検定統計量

検定統計量はピアソンカイ二乗検定統計量を用いる。 $$ \mathcal{X}^{2} = \sum_{j=1}^{k} {{ \left( O_{j} - E_{j} \right)^{2} } \over { E_{j} }} $$ ここで、$j$番目のカテゴリーに属するデータの度数$O_{j}$を観測度数、サンプルサイズ$n$と確率$p_{j}$の積である$E := n p_{j}$を期待度数という。この検定統計量はカイ二乗分布に従うが、その自由度はカテゴリーの数$k$から$1$を引いた$(k-1)$である。

説明

自由度

確率$p_{1} , \cdots , p_{k}$は$\sum_{j=1}^{k} p_{j} = 1$を満たすため、$k-1$個の確率のみわかれば残りの一つが決定することになる。それゆえ自由度は$k-1$でなければならない。

適合度？

まずGoodness of Fit Testという表現自体について説明しておく必要があるが、データサイエンス全般で適合^fitという用語は一般社会での使われ方とはやや異なることを理解しておいたほうが良い。韓国語で적합하다（適合する）という形容詞は「적합 시키다（適合させる）」や「적합을 진행한 뒤（適合を行った後）」といった表現は不自然だが、この分野では説明者が急ぐあまり使ってしまうこともある。これはFitという英単語が動詞として使えるのに対し、意訳した적합が動詞として用いられにくいためだろう。したがって「피팅 시키다（フィッティングする）」や「피팅을 진행한 뒤（フィッティングを行った後）」といった具合に動名詞形Fittingとして使うほうが自然である。

ではそのフィッティングとは何か？適合ではなくフィッティングというと、ほぼ普遍的な用法に一致するが、商品となる服を着る職業をモデルと呼ぶように、フィット^fitが良いという表現は「モデルによく似合うように服がぴったりしている」という意味を持つ。類似して、データサイエンスでは、データを説明する理論的なモデル^modelがデータに適合する程度についての尺度を適合度^{goodness of fit}と呼ぶ。

要約すると、データが理論とどれほど一致するかの度合いを適合度と呼び、その適合度を統計的にテストするのが適合度検定である。

用途

血液型、MBTI、性別比、従事職業の分布など適合度検定の用途は非常に広範である。また多項実験を前提としているのでカテゴリーデータからのみ使用可能であるように見えるが、実際には量的データの階級化を通じて何でもカテゴリーデータに変換できるため、理論的に分布が明らかにされているデータであればどこでも適用可能である。

例

メンデルの遺伝法則

メンデルの遺伝法則によれば、上の図のように色に関しては黄色が優性、緑色が劣性であり、形状は丸いものが優性、しわがあるものが劣性である際に、黄色で丸い純系と緑色でしわがある純系を交配させて得られた第一世代の表現型は優性を持つため黄色で丸いが、第二世代では黄色と緑が3:1、丸いものとしわのあるものが3:1の比率で現れ、全体としては9:3:3:1の比率が現れるという²。

	黄色-丸	黄色-しわ	緑-丸	緑-しわ
観測度数	773	231	238	59

こうして得られた2世代の豆の観測度数が上記のようである場合³、全体のサンプル数は$n = 1301$であり、カテゴリー数は$k = 4$である。この条件下で有意水準$\alpha = 0.05$で適合度検定を通じて、実験の結果が我々の理論的な予想である9:3:3:1に一致するか確認しよう。

$H_{0}$: 実験の結果はメンデルの遺伝法則に一致する。
$H_{1}$: 実験の結果はメンデルの遺伝法則に一致しない。

まず、帰無仮説および対立仮説は上記のようであり、そのピアソンカイ二乗検定統計量は $$ \begin{align*} \mathcal{X}^{2} =& \sum_{j=1}^{k} {{ \left( O_{j} - E_{j} \right)^{2} } \over { E_{j} }} \\ =& {{ \left( 773 - n 9 / 16 \right)^{2} } \over { n 9 / 16 }} + {{ \left( 231 - n 3 / 16 \right)^{2} } \over { n 3 / 16 }} + {{ \left( 238 - n 3 / 16 \right)^{2} } \over { n 3 / 16 }} + {{ \left( 59 - n / 16 \right)^{2} } \over { n / 16 }} \\ \approx & 2.32 + 0.69 + 0.14 + 6.12 \\ \approx & 9.27 \end{align*} $$ のように計算される⁴。与えられた有意水準$\alpha = 0.05$について、自由度$3$のカイ二乗分布に従う棄却域の上限は$\chi_{1 - \alpha}^{2} (3) \approx 7.815$であり、$\chi_{1 - \alpha}^{2} < \mathcal{X}^{2}$であるため、帰無仮説は棄却される。言い換えれば、この実験は有意水準$\alpha = 0.05$でメンデルの遺伝法則に一致しない結果を示しているということである。

実験が少しおかしいということで再度見ると、黄色-丸と緑-しわは773:59で約13:1の比を成しており、理論的に予想される9:1から大きく外れている。他の表現型と比較しても黄色-丸が多過ぎ、緑-しわが少な過ぎるが、適合度検定はそれを目測ではなく、正確に統計的に確認したものである。

ここで実験が理論に一致しなかった根拠として、$\mathcal{X}^{2}$の値が大きいという事実が用いられた点に注目してほしい。ピアソンカイ二乗検定統計量は本質的に$\left( O_{j} - E_{j} \right)^{2}$の和、すなわち観測度数と期待度数の間の乖離が激しくなるほど大きくなる値であり当然のことである。このような数式を見ず棄却域や右側検定について丸暗記することは難しいだけでなく面白くもない。少なくとも適合度検定において、$\mathcal{X}^{2}$は実験が理論と一致しないならば受ける罰点と見て差し支えない。