집단의 적합도 검정

가설검정 ¹

$k$개의 범주가 각자 이론적으로 $p_{j} > 0$ 의 확률로 뽑히는 다항실험에서 $n$번의 독립적인 시행으로 얻은 범주형 데이터가 주어져 있다고 가정하자. 피어슨 카이제곱 검정통계량을 사용한 다음의 가설검정을 적합도 검정^{goodness of fit test}이라 한다.

$H_{0}$: 주어진 데이터는 이론적인 확률에 부합되게끔 샘플링 되었다.
$H_{1}$: 주어진 데이터는 이론적인 확률에 부합되게끔 샘플링 되지 않았다.

검정통계량

검정통계량은 피어슨 카이제곱 검정통계량을 사용한다. $$ \mathcal{X}^{2} = \sum_{j=1}^{k} {{ \left( O_{j} - E_{j} \right)^{2} } \over { E_{j} }} $$ 여기서 $j$번째 범주에 속하는 데이터의 도수 $O_{j}$ 를 관측도수, 샘플사이즈 $n$ 과 확률 $p_{j}$ 의 곱인 $E := n p_{j}$ 를 기대도수라 한다. 이 검정통계량은 카이제곱분포를 따르는데, 그 자유도는 범주의 수 $k$ 에서 $1$ 만큼 뺀 $(k-1)$ 이다.

설명

자유도

확률 $p_{1} , \cdots , p_{k}$ 은 $\sum_{j=1}^{k} p_{j} = 1$ 을 만족하므로 $k-1$ 개의 확률만 알면 나머지 하나는 결정되는 것이나 마찬가지기 때문에 자유도는 $k-1$ 이어야 한다.

적합도?

우선 Goodness of Fit Test이라는 표현 자체에 대해 짚고 넘어가야할 것 같은데, 데이터과학 전반에서 적합^fit이라는 어휘는 우리 일반 사회에서와 조금 다르게 쓰인다는 점을 감안해두는 것이 좋다. 한국어에서 적합하다는 형용사로써, ‘적합 시키다’ 혹은 ‘적합을 진행한 뒤’와 같은 표현이 말이 안 되지만 이 바닥에선 설명하던 사람이 급할 때 한두번씩 튀어나오기도 한다. 이는 Fit이라는 영단어는 동사로 쓸 수 있지만 그 순화로 택한 적합은 동사로 쓰는 언어습관이 정착되지 않았기 때문인데, ‘피팅 시키다’ 혹은 ‘피팅을 진행한 뒤’와 같이 동명사꼴 Fitting으로 쓰면 아까보단 훨씬 말이 된다.

그렇다면 그 피팅이란 무엇인가? 적합이 아니라 피팅이라고 하면 거의 보편적인 용법과 일치하게 되는데, 상품이 되는 옷을 입는 직업을 모델이라 할 때 핏^fit이 좋다든가 하는 표현들은 ‘옷걸이가 좋아 모델에 옷이 잘 어울린다’라는 의미를 지닌다. 비슷하게, 데이터과학에선 우리가 데이터를 설명하는 어떤 이론적인 모형^model이 데이터에 잘 부합하는가에 대한 척도를 적합도^{goodness of fit}라 부르는 것이다.

짧게 요약하면, 데이터가 얼마나 이론과 일치하는가에 대한 정도를 적합도라 부르는 것이고 적합도 검정은 그 수치에 대해 통계적으로 테스트하는 것이다.

쓰임새

혈액형, MBTI, 성비, 종사 업종의 분포 등 적합도 검정의 쓰임새는 무궁무진하다. 또 가정에서는 다항실험을 전제로 삼기 때문에 범주형 데이터에서만 쓸 수 있는것처럼 보이지만 실제로는 양적자료의 계급화를 통해서 무엇이든 범주형 데이터로 바꿀 수 있으므로 이론적으로 분포가 밝혀진 데이터라면 어디에서나 적용할 수 있다.

예시

멘델의 유전법칙

멘델의 유전법칙에 따르면 위와 같이 색에 관해서는 노랑색이 우성, 초록색이 열성이고 둥근 것이 우성, 쭈글한 것이 열성 일 때 노랑색에 둥근 순혈종과 초록색에 쭈글한 순혈종을 교배시켜서 얻은 첫번째 세대의 표현형은 우성을 따라가서 노랑색에 둥근데 두번째 세대에선 노랑과 초록이 3:1, 둥근 것과 쭈글한 것이 3:1의 비율로 나타나서 전체적으로는 9:3:3:1의 비율이 나타난다고 한다².

	노둥	노쭈	초둥	초쭈
관측도수	773	231	238	59

이렇게 얻은 2세대 콩의 관측도수가 위와 같다고 하면 ³ 전체 표본의 수는 $n = 1301$이고 범주의 수는 $k = 4$인데, 이에 유의수준 $\alpha = 0.05$ 에서 적합도 검정을 통해 실험의 결과가 우리의 이론적인 예상비 9:3:3:1에 부합하는지 확인해보자.

$H_{0}$: 실험의 결과는 멘델의 유전법칙에 부합한다.
$H_{1}$: 실험의 결과는 멘델의 유전법칙에 부합하지 않는다.

우선 귀무가설과 대립가설은 위와 같고, 그 피어슨 카이제곱 검정통계량은 $$ \begin{align*} \mathcal{X}^{2} =& \sum_{j=1}^{k} {{ \left( O_{j} - E_{j} \right)^{2} } \over { E_{j} }} \\ =& {{ \left( 773 - n 9 / 16 \right)^{2} } \over { n 9 / 16 }} + {{ \left( 231 - n 3 / 16 \right)^{2} } \over { n 3 / 16 }} + {{ \left( 238 - n 3 / 16 \right)^{2} } \over { n 3 / 16 }} + {{ \left( 59 - n / 16 \right)^{2} } \over { n / 16 }} \\ \approx & 2.32 + 0.69 + 0.14 + 6.12 \\ \approx & 9.27 \end{align*} $$ 과 같이 계산된다⁴. 주어진 유의수준 $\alpha = 0.05$ 에 대해 자유도 $3$인 카이제곱분포를 따르는 기각역의 상한은 $\chi_{1 - \alpha}^{2} (3) \approx 7.815$ 인데, $\chi_{1 - \alpha}^{2} < \mathcal{X}^{2}$ 이므로 귀무가설이 기각된다. 다시 말해, 위 실험은 유의수준 $\alpha = 0.05$ 에서 멘델의 유전법칙에 부합하지 않는 결과인 것이다.

실험이 좀 이상하다고 하니까 이제와서 다시 보면 노동과 초쭈는 773:59는 약 13:1의 비를 이루고 있어 이론적으로 예상되는 9:1을 크게 어긋나 있다. 다른 표현형과 비교해봐도 노동은 너무 많고 초쭈는 너무 적은데, 적합도 검정은 그걸 눈대중이 아니라 정확히 통계적으로 확인한 것이다.

여기서 실험이 이론에 부합하지 않았던 근거로써 $\mathcal{X}^{2}$ 의 값이 크다는 사실이 사용되었다는 것에 주목하자. 피어슨 카이제곱 검정통계량은 본질적으로 $\left( O_{j} - E_{j} \right)^{2}$ 의 합, 즉 관측도수와 기대도수의 사이의 괴리가 심해질수록 커지는 값이기 때문에 당연한 것이다. 이런 수식을 보지 않고 기각역이 어떻고 오른쪽 검정이 어떻고 하는 식으로 외우면 어렵기만 하고 재미도 없다. 적어도 적합도 검정에서, $\mathcal{X}^{2}$ 는 실험이 이론과 맞지 않는만큼 받게되는 벌점이라고 보아도 무방하다.

같이보기

피어슨 카이제곱 검정통계량 $\mathcal{X}^{2}$

Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p597. ↩︎
http://legacy.biotechlearn.org.nz/themes/mendel_and_inheritance/images/inheritance_of_multiple_traits_in_peas ↩︎
경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p269. ↩︎
참고문헌에서는 $9.20$ 으로 적어두었는데, 초둥에서 계산이 틀린 것을 발견해서 직접 계산해보니 $9.27$ 이 나왔다. ↩︎