logo

집단의 독립성 검정 📂통계적검정

집단의 독립성 검정

가설검정 1

다항실험에서 데이터가 두 개의 특성 XX, YY 를 가지고 있고 XX 의 범주가 RR 개, YY 의 범주가 CC 개인 범주형 데이터nn번의 독립적인 시행으로 얻었다고 가정하자. 피어슨 카이제곱 검정통계량을 사용한 다음의 가설검정독립성 검정test of independence이라 한다.

  • H0H_{0}: 두 범주가 독립이다.
  • H1H_{1}: 두 범주가 종속이다.

검정통계량

검정통계량피어슨 카이제곱 검정통계량을 사용한다. X2=i=1Rj=1C(OijEij)2Eij \mathcal{X}^{2} = \sum_{i=1}^{R} \sum_{j=1}^{C} {{ \left( O_{ij} - E_{ij} \right)^{2} } \over { E_{ij} }} 여기서 XXii번째 범주에 속하면서 YYjj번째 범주에 속하는 데이터의 도수 OijO_{ij}관측도수, XXii번째 범주에 속하는 표본의 수 rir_{i}YYjj번째 범주에 속하는 표본의 수 cjc_{j} 의 곱 ricjr_{i} c_{j} 와 샘플사이즈 nn 의 비 E:=ricj/nE := r_{i} c_{j} / n기대도수라 한다. 이 검정통계량은 카이제곱분포를 따르는데, 그 자유도XXYY 각 범주의 수 RRCC 에서 11 만큼씩 뺀 값의 곱인 (R1)(C1)(R-1)(C-1) 이다.

설명

자유도

단순히 XXii번째 범주에 속하면서 YYjj번째 범주에 속하는 데이터의 도수 OijO_{ij}nn 으로 나눈 비율을 pijp_{ij} 라 두자. pi=j1=1Cpij=rin    i=1Rpi=1pj=i=1Rpij=cjn    j=1Cpj=1 \begin{align*} p_{i} = \sum_{j1=1}^{C} p_{ij} = {\frac{ r_{i} }{ n }} \implies & \sum_{i=1}^{R} p_{i} = 1 \\ p_{j} = \sum_{i=1}^{R} p_{ij} = {\frac{ c_{j} }{ n }} \implies & \sum_{j=1}^{C} p_{j} = 1 \end{align*} 각각의 마지널 확률을 생각해 보면 위와 같은 제약조건이 따르므로 각각의 범주에서 R1R-1 개, C1C - 1 개의 확률을 알면 나머지 하나는 결정되는 것이나 마찬가지다. 따라서 자유도는 그 곱인 (R1)(C1)(R - 1) (C - 1) 이어야 한다.

X\Yy1y2
x100000000
x200000000
x300000000

예를 들어 위와 같은 분할표XXR=3R = 3 개, YYC=2C = 2 개의 범주를 가지는 데이터를 나타내고, 그 자유도는 (31)(21)=2(3-1)(2-1) = 2 가 된다.

독립성

분할표라든가 확률의 곱 같은 설명이 많아서 어려워 보이지만 본질적으로 독립성 검정은 적합도 검정의 연장이다. 적합도 검정의 귀무가설은 ‘주어진 데이터가 이론적인 확률에 부합되게끔 샘플링 되었다’고, 독립성 검정에서는 바로 그 이론적인 확률이 각각의 범주에 대한 마지널 확률의 곱으로 나타날 뿐이기 때문이다.

사건의 독립: 확률 공간 (Ω,F,P)(\Omega , \mathcal{F} , P) 이 주어져 있다고 하자.

  1. P(B)>0P(B)>0 에 대해 P(AB)=P(AB)P(B)\displaystyle P (A | B) = {{P(A \cap B)} \over {P(B)}}BB 에 대한 AA조건부 확률conditional Probability이라고 한다.
  2. 만약 P(AB)=P(A)P(A | B) = P(A), 즉 P(AB)=P(A)P(B)P( A \cap B) = P(A) \cdot P(B)A,BA, B 가 서로 독립independent이라고 한다.

실제로 사건의 독립은 두 사건이 동시에 일어나는 확률이 각각 일어나는 확률의 곱과 같다는 것으로 정의된다. 독립성 검정의 맥락에서 만약 귀무가설이 참이라면, pij=pipjp_{ij} = p_{i} p_{j} 이므로 다음과 같은 관계가 성립해야 한다. Oijn=pij=pipj    Oij=npipj=nrincjn=ricjn=Eij \begin{align*} & {\frac{ O_{ij} }{ n }} = p_{ij} = p_{i} p_{j} \\ \implies & O_{ij} = n p_{i} p_{j} = n {\frac{ r_{i} }{ n }} {\frac{ c_{j} }{ n }} = {\frac{ r_{i} c_{j} }{ n }} = E_{ij} \end{align*} 관측도수 OijO_{ij} 와 기대도수 EijE_{ij} 의 차가 크다는 것은 카이제곱 검정통계량의 값이 커진다는 것―다시 말해 이론 상 정말로 두 가지 특성이 독립이라면 작았어야 할 X2\mathcal{X}^{2} 의 값이 크다는 것이므로 pij=pipjp_{ij} = p_{i} p_{j} 라는 귀무가설 자체를 의심해야 한다.

예시

멘델의 유전법칙

(집단의 적합도 검정 포스트에 이어서)

mendel.jpg

멘델의 유전법칙에 따르면 위와 같이 색에 관해서는 노랑색이 우성, 초록색이 열성이고 둥근 것이 우성, 쭈글한 것이 열성 일 때 노랑색에 둥근 순혈종과 초록색에 쭈글한 순혈종을 교배시켜서 얻은 첫번째 세대의 표현형은 우성을 따라가서 노랑색에 둥근데 두번째 세대에선 노랑과 초록이 3:1, 둥근 것과 쭈글한 것이 3:1의 비율로 나타나서 전체적으로는 9:3:3:1의 비율이 나타난다고 한다2.

노둥노쭈초둥초쭈
관측도수77323123859

이렇게 얻은 2세대 콩의 관측도수가 위와 같다고 하면 3 전체 표본의 수는 n=1301n = 1301이고 범주의 수는 k=4k = 4인데, 독립성 검정에선 아래와 같이 분할표를 만들어야 한다.

색상\모양둥글쭈글
노랑773231
초록23859

이제 유의수준 α=0.05\alpha = 0.05 에서 두 가지 특성 색상과 모양이 서로 독립인지 확인해보자. 가설검정에서 카이제곱분포의 자유도는 k1=3k-1 = 3 이 아니라 R=2R = 2 이고 C=2C = 2 이므로 (21)(21)=1(2-1)(2-1) = 1 임에 주의해야 한다.

  • H0H_{0}: 실험의 결과 상 색상과 모양은 서로 독립이다.
  • H1H_{1}: 실험의 결과 상 색상과 모양은 서로 종속이다.

우선 귀무가설과 대립가설은 위와 같고, 그 피어슨 카이제곱 검정통계량E11=(773+231)(773+238)1301780.2029E12=(773+231)(231+59)1301223.7971E21=(238+59)(773+238)1301230.7971E22=(238+59)(231+59)130166.2029X2=i=1Rj=1C(OijEij)2Eij(773780.2029)2780.2029+(231223.7971)2223.7971+(238230.7971)2230.7971+(5966.2029)266.20291.31 \begin{align*} E_{11} =& {\frac{ (773 + 231) \cdot (773 + 238) }{ 1301 }} \approx 780.2029 \\ E_{12} =& {\frac{ (773 + 231) \cdot (231 + 59) }{ 1301 }} \approx 223.7971 \\ E_{21} =& {\frac{ (238 + 59) \cdot (773 + 238) }{ 1301 }} \approx 230.7971 \\ E_{22} =& {\frac{ (238 + 59) \cdot (231 + 59) }{ 1301 }} \approx 66.2029 \\ \mathcal{X}^{2} =& \sum_{i=1}^{R} \sum_{j=1}^{C} {{ \left( O_{ij} - E_{ij} \right)^{2} } \over { E_{ij} }} \\ \approx & {\frac{ \left( 773 - 780.2029 \right)^{2} }{ 780.2029 }} + {\frac{ \left( 231 - 223.7971 \right)^{2} }{ 223.7971 }} \\ & + {\frac{ \left( 238 - 230.7971 \right)^{2} }{ 230.7971 }} + {\frac{ \left( 59 - 66.2029 \right)^{2} }{ 66.2029 }} \\ \approx & 1.31 \end{align*} 과 같이 계산된다. 주어진 유의수준 α=0.05\alpha = 0.05 에 대해 자유도 11카이제곱분포를 따르는 기각역의 상한은 χ1α2(1)3.84\chi_{1 - \alpha}^{2} (1) \approx 3.84 인데, χ1α2>X2\chi_{1 - \alpha}^{2} > \mathcal{X}^{2} 이므로 귀무가설을 기각할 수 없다. 적합도 검정에 따르면 이 데이터를 통해 멘델의 유전법칙을 지지할 수는 없었지만, 두 형질이 독립이라는 것은 주장할 수 있게 된 것이다.

같이보기


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p602. ↩︎

  2. http://legacy.biotechlearn.org.nz/themes/mendel_and_inheritance/images/inheritance_of_multiple_traits_in_peas ↩︎

  3. 경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p269. ↩︎