집단의 독립성 검정

가설검정 ¹

다항실험에서 데이터가 두 개의 특성 $X$, $Y$ 를 가지고 있고 $X$ 의 범주가 $R$ 개, $Y$ 의 범주가 $C$ 개인 범주형 데이터를 $n$번의 독립적인 시행으로 얻었다고 가정하자. 피어슨 카이제곱 검정통계량을 사용한 다음의 가설검정을 독립성 검정^{test of independence}이라 한다.

$H_{0}$: 두 범주가 독립이다.
$H_{1}$: 두 범주가 종속이다.

검정통계량

검정통계량은 피어슨 카이제곱 검정통계량을 사용한다. $$ \mathcal{X}^{2} = \sum_{i=1}^{R} \sum_{j=1}^{C} {{ \left( O_{ij} - E_{ij} \right)^{2} } \over { E_{ij} }} $$ 여기서 $X$ 가 $i$번째 범주에 속하면서 $Y$ 가 $j$번째 범주에 속하는 데이터의 도수 $O_{ij}$ 를 관측도수, $X$ 가 $i$번째 범주에 속하는 표본의 수 $r_{i}$ 와 $Y$ 가 $j$번째 범주에 속하는 표본의 수 $c_{j}$ 의 곱 $r_{i} c_{j}$ 와 샘플사이즈 $n$ 의 비 $E := r_{i} c_{j} / n$ 를 기대도수라 한다. 이 검정통계량은 카이제곱분포를 따르는데, 그 자유도는 $X$ 와 $Y$ 각 범주의 수 $R$ 과 $C$ 에서 $1$ 만큼씩 뺀 값의 곱인 $(R-1)(C-1)$ 이다.

설명

자유도

단순히 $X$ 가 $i$번째 범주에 속하면서 $Y$ 가 $j$번째 범주에 속하는 데이터의 도수 $O_{ij}$ 를 $n$ 으로 나눈 비율을 $p_{ij}$ 라 두자. $$ \begin{align*} p_{i} = \sum_{j1=1}^{C} p_{ij} = {\frac{ r_{i} }{ n }} \implies & \sum_{i=1}^{R} p_{i} = 1 \\ p_{j} = \sum_{i=1}^{R} p_{ij} = {\frac{ c_{j} }{ n }} \implies & \sum_{j=1}^{C} p_{j} = 1 \end{align*} $$ 각각의 마지널 확률을 생각해 보면 위와 같은 제약조건이 따르므로 각각의 범주에서 $R-1$ 개, $C - 1$ 개의 확률을 알면 나머지 하나는 결정되는 것이나 마찬가지다. 따라서 자유도는 그 곱인 $(R - 1) (C - 1)$ 이어야 한다.

X\Y	y1	y2
x1	0000	0000
x2	0000	0000
x3	0000	0000

예를 들어 위와 같은 분할표는 $X$ 가 $R = 3$ 개, $Y$ 가 $C = 2$ 개의 범주를 가지는 데이터를 나타내고, 그 자유도는 $(3-1)(2-1) = 2$ 가 된다.

독립성

분할표라든가 확률의 곱 같은 설명이 많아서 어려워 보이지만 본질적으로 독립성 검정은 적합도 검정의 연장이다. 적합도 검정의 귀무가설은 ‘주어진 데이터가 이론적인 확률에 부합되게끔 샘플링 되었다’고, 독립성 검정에서는 바로 그 이론적인 확률이 각각의 범주에 대한 마지널 확률의 곱으로 나타날 뿐이기 때문이다.

사건의 독립: 확률 공간 $(\Omega , \mathcal{F} , P)$ 이 주어져 있다고 하자.
$P(B)>0$ 에 대해 $\displaystyle P (A | B) = {{P(A \cap B)} \over {P(B)}}$ 를 $B$ 에 대한 $A$ 의 조건부 확률^{conditional Probability}이라고 한다.
만약 $P(A | B) = P(A)$, 즉 $P( A \cap B) = P(A) \cdot P(B)$ 면 $A, B$ 가 서로 독립^independent이라고 한다.

실제로 사건의 독립은 두 사건이 동시에 일어나는 확률이 각각 일어나는 확률의 곱과 같다는 것으로 정의된다. 독립성 검정의 맥락에서 만약 귀무가설이 참이라면, $p_{ij} = p_{i} p_{j}$ 이므로 다음과 같은 관계가 성립해야 한다. $$ \begin{align*} & {\frac{ O_{ij} }{ n }} = p_{ij} = p_{i} p_{j} \\ \implies & O_{ij} = n p_{i} p_{j} = n {\frac{ r_{i} }{ n }} {\frac{ c_{j} }{ n }} = {\frac{ r_{i} c_{j} }{ n }} = E_{ij} \end{align*} $$ 관측도수 $O_{ij}$ 와 기대도수 $E_{ij}$ 의 차가 크다는 것은 카이제곱 검정통계량의 값이 커진다는 것―다시 말해 이론 상 정말로 두 가지 특성이 독립이라면 작았어야 할 $\mathcal{X}^{2}$ 의 값이 크다는 것이므로 $p_{ij} = p_{i} p_{j}$ 라는 귀무가설 자체를 의심해야 한다.

예시

멘델의 유전법칙

(집단의 적합도 검정 포스트에 이어서)

멘델의 유전법칙에 따르면 위와 같이 색에 관해서는 노랑색이 우성, 초록색이 열성이고 둥근 것이 우성, 쭈글한 것이 열성 일 때 노랑색에 둥근 순혈종과 초록색에 쭈글한 순혈종을 교배시켜서 얻은 첫번째 세대의 표현형은 우성을 따라가서 노랑색에 둥근데 두번째 세대에선 노랑과 초록이 3:1, 둥근 것과 쭈글한 것이 3:1의 비율로 나타나서 전체적으로는 9:3:3:1의 비율이 나타난다고 한다².

	노둥	노쭈	초둥	초쭈
관측도수	773	231	238	59

이렇게 얻은 2세대 콩의 관측도수가 위와 같다고 하면 ³ 전체 표본의 수는 $n = 1301$이고 범주의 수는 $k = 4$인데, 독립성 검정에선 아래와 같이 분할표를 만들어야 한다.

색상\모양	둥글	쭈글
노랑	773	231
초록	238	59

이제 유의수준 $\alpha = 0.05$ 에서 두 가지 특성 색상과 모양이 서로 독립인지 확인해보자. 가설검정에서 카이제곱분포의 자유도는 $k-1 = 3$ 이 아니라 $R = 2$ 이고 $C = 2$ 이므로 $(2-1)(2-1) = 1$ 임에 주의해야 한다.

$H_{0}$: 실험의 결과 상 색상과 모양은 서로 독립이다.
$H_{1}$: 실험의 결과 상 색상과 모양은 서로 종속이다.

우선 귀무가설과 대립가설은 위와 같고, 그 피어슨 카이제곱 검정통계량은 $$ \begin{align*} E_{11} =& {\frac{ (773 + 231) \cdot (773 + 238) }{ 1301 }} \approx 780.2029 \\ E_{12} =& {\frac{ (773 + 231) \cdot (231 + 59) }{ 1301 }} \approx 223.7971 \\ E_{21} =& {\frac{ (238 + 59) \cdot (773 + 238) }{ 1301 }} \approx 230.7971 \\ E_{22} =& {\frac{ (238 + 59) \cdot (231 + 59) }{ 1301 }} \approx 66.2029 \\ \mathcal{X}^{2} =& \sum_{i=1}^{R} \sum_{j=1}^{C} {{ \left( O_{ij} - E_{ij} \right)^{2} } \over { E_{ij} }} \\ \approx & {\frac{ \left( 773 - 780.2029 \right)^{2} }{ 780.2029 }} + {\frac{ \left( 231 - 223.7971 \right)^{2} }{ 223.7971 }} \\ & + {\frac{ \left( 238 - 230.7971 \right)^{2} }{ 230.7971 }} + {\frac{ \left( 59 - 66.2029 \right)^{2} }{ 66.2029 }} \\ \approx & 1.31 \end{align*} $$ 과 같이 계산된다. 주어진 유의수준 $\alpha = 0.05$ 에 대해 자유도 $1$인 카이제곱분포를 따르는 기각역의 상한은 $\chi_{1 - \alpha}^{2} (1) \approx 3.84$ 인데, $\chi_{1 - \alpha}^{2} > \mathcal{X}^{2}$ 이므로 귀무가설을 기각할 수 없다. 적합도 검정에 따르면 이 데이터를 통해 멘델의 유전법칙을 지지할 수는 없었지만, 두 형질이 독립이라는 것은 주장할 수 있게 된 것이다.

같이보기

피어슨 카이제곱 검정통계량 $\mathcal{X}^{2}$

Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p602. ↩︎
http://legacy.biotechlearn.org.nz/themes/mendel_and_inheritance/images/inheritance_of_multiple_traits_in_peas ↩︎
경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p269. ↩︎