집단의 동질성 검정
가설검정 1
다항실험에서 범주가 개인 범주형 데이터를 개의 모집단에서 얻었다고 가정하자. 번째 모집단에서 원소가 번째 범주에 속할 확률을 이라 할 때, 번째 모집단의 비율 벡터를 로 나타내자. 피어슨 카이제곱 검정통계량을 사용한 다음의 가설검정을 독립성 검정test of independence이라 한다.
- : 모든 모집단의 원소의 비율이 동일하다:
- : 원소의 비율이 동일하지 않은 모집단이 적어도 하나 존재한다.
검정통계량
검정통계량은 피어슨 카이제곱 검정통계량을 사용한다. 여기서 번째 모집단에 속하면서 번째 범주에 속하는 데이터의 도수 를 관측도수, 번째 모집단에 속하는 표본의 수 와 번째 범주에 속하는 표본의 수 의 곱 와 샘플사이즈 의 비 를 기대도수라 한다. 이 검정통계량은 카이제곱분포를 따르는데, 그 자유도는 모집단의 수 과 범주의 수 에서 만큼씩 뺀 값의 곱인 이다.
설명
자유도
각각의 마지널 확률을 생각해 보면 위와 같은 제약조건이 따르므로 각각의 모집단에서 개, 범주에서 개의 확률을 알면 나머지 하나는 결정되는 것이나 마찬가지다. 따라서 자유도는 그 곱인 이어야 한다.
X\Y | y1 | y2 |
---|---|---|
x1 | 0000 | 0000 |
x2 | 0000 | 0000 |
x3 | 0000 | 0000 |
예를 들어 위와 같은 분할표는 모집단이 개, 범주가 개의 범주를 가지는 데이터를 나타내고, 그 자유도는 가 된다.
동질성 2
사실 동질성 검정의 프로세스는 독립성 검정과 정확히 같고, 실제로 독립성 검정의 연장이라고 볼 수 있는데 귀무가설과 대립가설 및 그 해석이 다를 뿐이다. 독립성 검정에서는 두 가지 범주가 존재해서 이들의 관계에 따라 행의 합 과 열의 합 이 랜덤하게 구해지지만, 동질성 검정에서는 각 모집단의 샘플사이즈 는 정해져있고 비율의 벡터 에 따라서 가 랜덤하게 구해진다고 본다. 이 비율의 벡터 가 와 관계 없이 일관성을 가진다는 것은 모집단에 따른 특수한 차이가 없다는 것이고, 결과적으로는 모집단의 선택과 범주의 비율이 독립이라는 것과 상통한다.
간단한 예로써 대학교 과목 하나에서 남성과 여성이라는 두가지 성별에 따라 성적의 차이가 있는지를 파악하려면 다음과 같이 분할표를 만들어서 동질성 검정을 할 수 있다.
성별 | A | B | C | D | F | 계 |
---|---|---|---|---|---|---|
남성 | 29 | 52 | 26 | 17 | 6 | 130 |
여성 | 6 | 75 | 98 | 62 | 9 | 250 |
- : 성별에 관계 없이 성적 비율이 동일하다.
- : 성별에 관계 없이 성적 비율이 동일하지 않다.
보다시피 성적이라는 범주의 계급은 A부터 F까지 다섯가지나 있기 때문에, 이를 단순히 13:25의 비율로 끼워맞춰서 차이를 해석하기는 곤란하다. 유의수준 에서 남성과 여성의 성적 비율이 통계적으로 동일하다고 말할 수 있는지 확인하려면, 이고 이므로 자유도 인 카이제곱분포에서 얻은 과 검정통계량 을 비교하면 된다. 실제 계산 결과는 로 를 크게 웃돌아 유의수준 에서 성별에 따른 성적의 차이가 있다고 결론지을 수 있다.
주의해야할 것은 이러한 통계적 해석이 어디까지나 ‘동일하지 않다’는 것에서 그쳐야 한다는 것이다. 물론 눈이 있다면 누구나 이 가상의 예시에서 남성의 성적이 뛰어난 것을 파악할 수 있겠지만, 지나가는 말로 ‘남자들이 더 잘하네’라고 말할 수 있겠지만, 그러한 판단은 동질성 검정이 아니라 ‘아마 A가 제일 좋고 F가 제일 별로겠지’라는 직관에서 나온 것이다. 설령 그러한 정보가 주어질지라도 동질성 검정의 귀무가설과 대립가설에서 우열을 언급하지는 않았으며, 이는 실제로 수학적인 백그라운드가 실제로 그러하기 때문이다.