logo

피어슨 카이제곱 검정통계량 📂통계적검정

피어슨 카이제곱 검정통계량

정의 1

$k$개의 범주가 각자 $p_{j} > 0$ 의 확률로 뽑히는 다항실험에서 $n$번의 독립적인 시행으로 얻은 범주형 데이터가 주어져 있다고 하자. $j$번째 범주에 속하는 데이터의 도수 $O_{j}$ 를 관측도수observed cell count, 가설검정의 귀무가설 하에서 예상되는 기대값 $E_{j}$ 를 기대도수expected cell count라 한다. 검정통계량 $$ \mathcal{X}^{2} := \sum_{j=1}^{k} {{ \left( O_{j} - E_{j} \right)^{2} } \over { E_{j} }} $$ 을 피어슨 카이제곱 검정통계량pearson Chi-square test statistic이라 한다.

설명

가설검정

$\mathcal{X}^{2}$ 는 1학년부터 접할수 있는 대표적인 검정통계량으로써, 고작 해봐야 정규분포 내지 이항분포만 알고 있던 신입생들에게 충격과 공포를 전한다. 경험이 부족한 어린이 친구들에게 카이제곱분포에 대해 아무리 상세하게 설명해봤자 데이터와 통계분석에 대한 직관이 자리잡지 못했다면 이해할 수 있을리가 없으니, 수식만 보고도 이해할 수 있는 선까지만 간단하게 설명하겠다.

  1. 대부분의 경우, $\mathcal{X}^{2}$ 가 크다는 것은 실제 데이터와 이론적 예상이 어긋나고 있다는 말이다. 수식의 분자를 보면 $\left( O_{j} - E_{j} \right)^{2} \ge 0$ 가 가장 작아지는 것은 정확히 $O_{j} = E_{j}$, 즉 이론적으로 알고 있는 확률 $p_{j}$ 에 따라 관측된 데이터가 정확히 일치하는 것이다. 그 수치들이 틀리면 틀릴수록 분자는 끝도없이 커질 수 있다.
  2. 그래서 $\mathcal{X}^{2}$ 는 데이터가 귀무가설 $H_{0}$ 에 맞지 않을수록 그 값이 커지고, 보통은 $\mathcal{X}^{2}$ 가 $\chi^{2}_{1-\alpha}$ 보다 클 때 귀무가설을 기각하는 오른쪽꼬리검정right-tailed statistical test만 한다.
  3. 다 필요없고, 하여튼 $\mathcal{X}^{2}$ 가 크면 “뭔가 많이 틀렸다"는 뜻이다. 카이제곱은 얼마나 많이 틀리고 있는지, 흩어지고 있는지 알고 싶을 때 쓰는 분포다.

범주형 데이터에 대한 피어슨 카이제곱 검정통계량의 용도는 대표적으로 다음 세가지가 있다:

이론적 근거

이 아래로 읽는 당신은 아마 신입생 수준은 넘었을 것이다.

흔히 잔차의 분포로써 가정되는 정규분포의 제곱이 비례적으로 카이제곱분포를 따른다는 것은 스튜던트의 정리에 의해 알려져 있으나, 어느정도 수리통계학을 공부한 학부생이 다시 보아도 $\mathcal{X}^{2}$ 의 모양은 상당히 어색하다. 언뜻 말이 되는 것처럼 보이다가도 편차가 정규분포를 따른다는 가정조차 없어서 그냥 경험적인 통계량인가 싶기도 하다. 물론 통계학이라는 게 그렇게 주먹구구식으로 굴러가지는 않으며, 제대로 증명이 있는 피어슨 정리가 $\mathcal{X}^{2}$ 의 카이제곱성을 보장한다.

피어슨 정리: 샘플사이즈 $n \in \mathbb{N}$ 과 $k \in \mathbb{N}$ 개의 범주에 대해 랜덤벡터 $\left( N_{1} , \cdots , N_{k} \right)$ 가 다항분포 $M_{k} \left( n ; \mathbf{p} \right)$ 를 따른자고 하자. 그러면 $n \to \infty$ 일 때 다음의 통계량 $S$ 는 카이제곱분포 $\chi^{2} \left( k - 1 \right)$ 로 분포수렴한다. $$ S = \sum_{j=1}^{k} {{ \left( N_{j} - n p_{j} \right)^{2} } \over { n p_{j} }} \overset{D}{\to} \chi^{2} \left( k-1 \right) $$

정의에서 소개된 다항실험은 우리의 데이터가 다항분포를 따른다는 것을 정확히 가정하고 있으며, 피어슨 정리에 따라 표본이 충분히 많다면 범주의 종류 $k$ 에서 $1$ 을 뺀 자유도 $(k-1)$ 의 카이제곱분포에 근사한다. 피어슨 정리의 증명은 결코 간단하지 않으나, 학부생 정도라면 이론적인 배경을 잘 모르더라도 $\mathcal{X}^{2}$ 를 실제로 활용하는 것에는 크게 문제가 없다. 물론 대학원행을 결정했다면 하루 날 잡고 스스로 증명할 수 있을 때까지 공부해보길 추천한다.


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p596. ↩︎