실험 설계 상 k 개의 처리가 있을 때, 각 처리에서 nj 개씩 총 n=n1+⋯+nk 개의 표본을 얻었다고 하자. j=1,⋯,k 번째 처리의 표본이 각자 독립적이고 랜덤하게 정규분포N(μj,σj2) 를 따르며, 각 정규분포의 모분산이 같아서 σ2=σ12=⋯=σk2 라 가정하자. 집단 간의 모평균를 비교하는 분산분석에서 가설검정은 다음과 같다.
처리별 평균을 xˉj:=∑ixij/nj 라 하고, 전체 평균을 xˉ:=∑ijxij/n 이라 하자.
SST=SSE=MST=MSE=F=j=1∑knj(xˉj−xˉ)2(n1−1)s12+⋯+(nk−1)sk2k−1SSTn−kSSEMSEMST=SSE/(n−k)SST/(k−1)
일원분산분석에서의 아노바 테이블은 위와 같다. 귀무가설이 참이라는 가정 하에서는 어떤 μ 에 대해 μ=μ1=⋯=μk 이라 둘 수 있고, z-스코어Zij 를 다음과 같이 두자.
Zij:=(σxij−μ)2∼N(0,1)Zij 의 제곱합은 다음과 같이 풀어 쓸 수 있다.
===j=1∑ki=1∑njZij2j=1∑ki=1∑nj(σxij−μ)2σ21j=1∑ki=1∑nj[(xij−xˉj)+(xˉj−xˉ)+(xˉ−μ)]2σ21j=1∑ki=1∑nj[(xij−xˉj)2+(xˉj−xˉ)2+(xˉ−μ)2]+σ22j=1∑ki=1∑nj[(xij−xˉj)(xˉj−xˉ)+(xˉj−xˉ)(xˉ−μ)+(xˉ−μ)(xij−xˉj)]
여기서 마지막줄은
==i=1∑nj(xij−xˉj)i=1∑njxij−njnj1i=1∑njxij0
이고
====j=1∑ki=1∑nj(xˉj−xˉ)j=1∑knj(xˉj−xˉ)j=1∑knjxˉj−j=1∑knjxˉj=1∑knjnj1i=1∑njxij−nxˉ0
이므로 모두 0 이 되어 사라지고, Zij 의 제곱합은 다음과 같이 적을 수 있다.
j=1∑ki=1∑njZij2=j=1∑ki=1∑nj(σxij−xˉj)2+j=1∑ki=1∑nj(σxˉj−xˉ)2+j=1∑ki=1∑nj(σxˉ−μ)2
이제 우변의 세 시그마를 순서대로 Q1,Q2,Q3 이라 두자.
j=1∑ki=1∑njZij2=Q1+Q2+Q3
크기가 n×n 인 항등행렬In 과 모든 성분이 1 인 일행렬Jn 과 블럭행렬인 대각행렬diag 에 대해 다음과 같이 세 개의 대칭행렬A1,A2,A3 을 정의하자.
A1:=A2:=A3:=In−diag(n11Jn1,⋯,nk1Jnk)diag(n11Jn1,⋯,nk1Jnk)−n1Jnn1Jn
블럭대각행렬의 각 블럭은 각 처리 j 마다의 (nj−1)sj2 을 위한 포석임을 알아두자. 이 세 행렬의 합은 그 정의에서 A1+A2+A3=In 고, 일행렬의 랭크가 1 이라는 것부터 시작해서 세 행렬의 랭크가 다음과 같음을 어렵지 않게 알 수 있다.
rankA1=rankA2=rankA3=n−kk−11
이제 벡터 Z∈Rn×1 를 nj차원 벡터 (xj1,⋯,xjnj)∈Rnj×1 들에 대해 다음과 같이 정의하자.
Z:=z1⋮zk=(x11,⋯,x1n1)⋮(x1k,⋯,xknk)=x11⋮xknk
벡터 표기에 따라 Zij 의 제곱합은 다음과 같이 쓸 수 있다.
j=1∑ki=1∑njZij2==Q1+Q2+Q3ZTA1Z+ZTA2Z+ZTA3Z
코크란 정리: 샘플X=(X1,⋯,Xn) 이 X1,⋯,Xn∼iidN(0,σ2) 와 같이 iid로 정규분포를 따른다고 하자. 랭크가 rj 인 대칭행렬A1,⋯,Ak∈Rn×n 에 대해 확률변수Q1,⋯,Qk 가 랜덤벡터 이차형식Qi:=XTAiX 와 같이 나타난다고 하고 샘플의 제곱합이 ∑i=1nXi2=∑j=1kQj 이라고 하면, 다음이 성립한다.
∀j,σ2Qj∼χ2(rj)∧∀j1=j2,Qj1⊥Qj2⟺j=1∑krj=n
다시 말해, Qj 들이 서로 독립이고 카이제곱분포χ2(rj) 를 따르는 것과 동치조건은 랭크 rj 들의 합이 샘플의 크기 n 과 같다는 것이다.
Z 의 각 성분이 표준정규분포 N(0,12) 를 따르고 ∑l=13rankAl=n 이므로, 코크란 정리에 따라 Q1 과 Q2 는 다음과 같이 독립이면서 카이제곱분포를 따른다.
Q1=12Q1∼Q2=12Q2∼χ2(rankA1)=χ2(n−k)χ2(rankA2)=χ2(k−1)
한편 이 Q1 과 Q2 는 SSE 와 SST 에 대해 다음과 같이 나타낼 수 있다.
Q1=Q2=j=1∑ki=1∑nj(σxij−xˉj)2=j=1∑ki=1∑nj(σxˉj−xˉ)2=σ21[(n1−1)s12+⋯+(nk−1)sk2]=σ21j=1∑knj(xˉj−xˉ)2=σ21SSEσ21SST
F====∼MSEMSTSSE/(n−k)SST/(k−1)(SSE/σ2)/(n−k)(SST/σ2)/(k−1)Q1/(n−k)Q2/(k−1)F(k−1,n−k)
이에 따라 귀무가설이 참이라는 가정 하에서 검정통계량 F 가 F-분포를 따르는 것을 알 수 있다.
■
따름 정리
한편 증명 과정에서 Q2 가 카이제곱분포를 따른다는 팩트는 통계학 전반에서 매우 폭넓게 쓰인다.
모평균을 알 때의 편차제곱의 가중합
실험 설계 상 k 개의 처리가 있을 때, 각 처리에서 nj 개씩 총 n=n1+⋯+nk 개의 표본을 얻었다고 하자. j=1,⋯,k 번째 처리의 표본이 각자 독립적이고 랜덤하게 정규분포N(μj,σj2) 를 따르며, 각 정규분포의 모분산이 같아서 σ2=σ12=⋯=σk2 라 가정하자. 다음과 같은 편차제곱의 가중합으로 정의되는 통계량은 자유도가 (k−1) 인 카이제곱분포를 따른다.
j=1∑kσ2/nj(xˉj−xˉ)2∼χ2(k−1)
이는 (xˉj−xˉ) 가 정규분포를 따른다면 표본 그 자체가 정규분포를 따르지 않더라도 성립한다.
증명 과정에서 코크란 정리를 사용하는 부분을 보면 실제로는 표본 그 자체가 아니라 Z 의 정규성을 필요로 하는데, 그럼에도 분산분석에서 표본의 정규성을 가정하는 이유는 Z 의 정규성 자체가 표본의 정규성에서 왔기 때문이다.