집단의 독립성 검정
📂통계적검정집단의 독립성 검정
가설검정
다항실험에서 데이터가 두 개의 특성 X, Y 를 가지고 있고 X 의 범주가 R 개, Y 의 범주가 C 개인 범주형 데이터를 n번의 독립적인 시행으로 얻었다고 가정하자. 피어슨 카이제곱 검정통계량을 사용한 다음의 가설검정을 독립성 검정test of independence이라 한다.
- H0: 두 범주가 독립이다.
- H1: 두 범주가 종속이다.
검정통계량
검정통계량은 피어슨 카이제곱 검정통계량을 사용한다.
X2=i=1∑Rj=1∑CEij(Oij−Eij)2
여기서 X 가 i번째 범주에 속하면서 Y 가 j번째 범주에 속하는 데이터의 도수 Oij 를 관측도수, X 가 i번째 범주에 속하는 표본의 수 ri 와 Y 가 j번째 범주에 속하는 표본의 수 cj 의 곱 ricj 와 샘플사이즈 n 의 비 E:=ricj/n 를 기대도수라 한다. 이 검정통계량은 카이제곱분포를 따르는데, 그 자유도는 X 와 Y 각 범주의 수 R 과 C 에서 1 만큼씩 뺀 값의 곱인 (R−1)(C−1) 이다.
설명
자유도
단순히 X 가 i번째 범주에 속하면서 Y 가 j번째 범주에 속하는 데이터의 도수 Oij 를 n 으로 나눈 비율을 pij 라 두자.
pi=j1=1∑Cpij=nri⟹pj=i=1∑Rpij=ncj⟹i=1∑Rpi=1j=1∑Cpj=1
각각의 마지널 확률을 생각해 보면 위와 같은 제약조건이 따르므로 각각의 범주에서 R−1 개, C−1 개의 확률을 알면 나머지 하나는 결정되는 것이나 마찬가지다. 따라서 자유도는 그 곱인 (R−1)(C−1) 이어야 한다.
X\Y | y1 | y2 |
---|
x1 | 0000 | 0000 |
x2 | 0000 | 0000 |
x3 | 0000 | 0000 |
예를 들어 위와 같은 분할표는 X 가 R=3 개, Y 가 C=2 개의 범주를 가지는 데이터를 나타내고, 그 자유도는 (3−1)(2−1)=2 가 된다.
독립성
분할표라든가 확률의 곱 같은 설명이 많아서 어려워 보이지만 본질적으로 독립성 검정은 적합도 검정의 연장이다. 적합도 검정의 귀무가설은 ‘주어진 데이터가 이론적인 확률에 부합되게끔 샘플링 되었다’고, 독립성 검정에서는 바로 그 이론적인 확률이 각각의 범주에 대한 마지널 확률의 곱으로 나타날 뿐이기 때문이다.
사건의 독립: 확률 공간 (Ω,F,P) 이 주어져 있다고 하자.
- P(B)>0 에 대해 P(A∣B)=P(B)P(A∩B) 를 B 에 대한 A 의 조건부 확률conditional Probability이라고 한다.
- 만약 P(A∣B)=P(A), 즉 P(A∩B)=P(A)⋅P(B) 면 A,B 가 서로 독립independent이라고 한다.
실제로 사건의 독립은 두 사건이 동시에 일어나는 확률이 각각 일어나는 확률의 곱과 같다는 것으로 정의된다. 독립성 검정의 맥락에서 만약 귀무가설이 참이라면, pij=pipj 이므로 다음과 같은 관계가 성립해야 한다.
⟹nOij=pij=pipjOij=npipj=nnrincj=nricj=Eij
관측도수 Oij 와 기대도수 Eij 의 차가 크다는 것은 카이제곱 검정통계량의 값이 커진다는 것―다시 말해 이론 상 정말로 두 가지 특성이 독립이라면 작았어야 할 X2 의 값이 크다는 것이므로 pij=pipj 라는 귀무가설 자체를 의심해야 한다.
예시
멘델의 유전법칙
(집단의 적합도 검정 포스트에 이어서)

멘델의 유전법칙에 따르면 위와 같이 색에 관해서는 노랑색이 우성, 초록색이 열성이고 둥근 것이 우성, 쭈글한 것이 열성 일 때 노랑색에 둥근 순혈종과 초록색에 쭈글한 순혈종을 교배시켜서 얻은 첫번째 세대의 표현형은 우성을 따라가서 노랑색에 둥근데 두번째 세대에선 노랑과 초록이 3:1, 둥근 것과 쭈글한 것이 3:1의 비율로 나타나서 전체적으로는 9:3:3:1의 비율이 나타난다고 한다.
이렇게 얻은 2세대 콩의 관측도수가 위와 같다고 하면 전체 표본의 수는 n=1301이고 범주의 수는 k=4인데, 독립성 검정에선 아래와 같이 분할표를 만들어야 한다.
이제 유의수준 α=0.05 에서 두 가지 특성 색상과 모양이 서로 독립인지 확인해보자. 가설검정에서 카이제곱분포의 자유도는 k−1=3 이 아니라 R=2 이고 C=2 이므로 (2−1)(2−1)=1 임에 주의해야 한다.
- H0: 실험의 결과 상 색상과 모양은 서로 독립이다.
- H1: 실험의 결과 상 색상과 모양은 서로 종속이다.
우선 귀무가설과 대립가설은 위와 같고, 그 피어슨 카이제곱 검정통계량은
E11=E12=E21=E22=X2=≈≈1301(773+231)⋅(773+238)≈780.20291301(773+231)⋅(231+59)≈223.79711301(238+59)⋅(773+238)≈230.79711301(238+59)⋅(231+59)≈66.2029i=1∑Rj=1∑CEij(Oij−Eij)2780.2029(773−780.2029)2+223.7971(231−223.7971)2+230.7971(238−230.7971)2+66.2029(59−66.2029)21.31
과 같이 계산된다. 주어진 유의수준 α=0.05 에 대해 자유도 1인 카이제곱분포를 따르는 기각역의 상한은 χ1−α2(1)≈3.84 인데, χ1−α2>X2 이므로 귀무가설을 기각할 수 없다. 적합도 검정에 따르면 이 데이터를 통해 멘델의 유전법칙을 지지할 수는 없었지만, 두 형질이 독립이라는 것은 주장할 수 있게 된 것이다.
같이보기