코크란 정리 증명
📂수리통계학코크란 정리 증명
정리
샘플 X=(X1,⋯,Xn) 이 X1,⋯,Xn∼iidN(0,σ2) 와 같이 iid로 정규분포를 따른다고 하자. 랭크가 rj 인 대칭행렬 A1,⋯,Ak∈Rn×n 에 대해 확률변수 Q1,⋯,Qk 가 랜덤벡터 이차형식 Qi:=XTAiX 와 같이 나타난다고 하고 샘플의 제곱합이 ∑i=1nXi2=∑j=1kQj 이라고 하면, 다음이 성립한다.
∀j,σ2Qj∼χ2(rj)∧∀j1=j2,Qj1⊥Qj2⟺j=1∑krj=n
다시 말해, Qj 들이 서로 독립이고 카이제곱분포 χ2(rj) 를 따르는 것과 동치조건은 랭크 rj 들의 합이 샘플의 크기 n 과 같다는 것이다.
설명
이 정리는 F-검정이 사용되는 분산분석를 지탱하는 이론적 기틀이 된다.
증명
(⟹) Qj 들이 서로 독립이고 Qj/σ2∼χ2(rj) 라 가정하자.
확률변수들의 덧셈: Xi∼χ2(ri) 이면
i=1∑nXi∼χ2(i=1∑nri)
Qj/σ2 가 자유도 rj 이 카재곱분포를 따르므로 이 확률변수들의 합은 다음과 같은 카이제곱분포를 따른다.
j=1∑kσ2Qj∼χ2(j=1∑krj)
표준정규분포에서의 카이제곱분포 유도: X∼N(μ,σ2)면
V=(σX−μ)2∼χ2(1)
X1,⋯,Xn 는 정규분포를 따르므로 Xi2/σ2∼χ2(1) 이고, 그 합은 다음과 같은 카이제곱분포를 따른다.
i=1∑nσ2Xi2∼χ2(n)
대전제에서 ∑i=1nXi2=∑j=1kQj 라 했으므로, n=∑j=1krj 이어야 한다.
(⟸) ∑j=1krj=n 이라 가정하자.
j=1∑kQj===XT(A1+⋯+Ak)XXTXi=1∑nXi2
∑i=1nXi2=∑j=1kQj 이라는 것은 위와 같으므로, In=∑j=1kAj 임을 알 수 있다. 여기서 행렬 Bj=In−Aj 라 정의하면, Bj 는 Aj 만 제외하고 나머지 A1,⋯,Ak 를 더한 것과 같다.
행렬 랭크의 준가법성: 행렬의 랭크는 준가법성을 가진다. 다시 말해, 두 행렬 A,B 에 대해 다음이 성립한다.
rank(A+B)≤rankA+rankB
Rj0 을 Bj0 의 랭크라 하면, 행렬 합의 랭크는 행렬 랭크의 합보다 작거나 같으므로 다음의 부등식을 얻는다.
Rj0=rankBj0≤rank(In−Aj0)=j=1∑krj−rj0=n−rj0
그런데 한편으로는 In=Aj0+Bj0 이므로 n≤rj0+Rj0⟹n−rj0≤Rj0 이고, 정확하게 Rj0=n−rj0 이 성립한다.
이는 Bj0 가 Rj0=n−rj0 개 만큼의 0 이 아닌 고유값을 가지고 있다는 의미가 된다. Bj0 의 고유값 λ 는 det(Bj0−λI)=0 을 만족해야 하고, Bj0=In−Aj0 이므로 다음과 같이 다시 적을 수 있다.
det(In−Aj0−λIn)=det(Aj0−(1−λ)In)=0
따라서 Aj0 의 고유값은 Bj0 의 고유값과 1 씩 차이가 나고, Bj0 의 0 인 고유값이 정확히 rj0 개 였으니 Aj0 는 1 인 고유값을 정확히 rj0 개 가진다. 대전제에서 rankAj=rj 이라 했으므로 Aj0 는 rj0 개의 1 인 고유값을 가지고 나머지는 모두 0 이다.
고유값이 0 과 1 뿐인 대칭 실수행렬: 대칭행렬 A∈Rn×n 의 고유값이 모두 0 이거나 1 이면 A 는 멱등행렬이다.
정규분포 랜덤벡터 이차형식의 카이제곱성의 동치조건: 샘플 X=(X1,⋯,Xn) 이 X1,⋯,Xn∼iidN(0,σ2) 와 같이 iid로 정규분포를 따른다고 하자. 랭크가 r≤n 인 대칭행렬 A∈Rn×n 에 대해 랜덤벡터 이차형식을 Q=σ−2XTAX 라 두면, 다음이 성립한다.
Q∼χ2(r)⟺A2=A
모든 대칭 실수행렬 A1,⋯,Ak 는 고유값이 0 과 1 뿐이므로 멱등행렬이고, 랭크가 rj 이므로 Qj/σ2 는 카이제곱분포 χ2(rj) 를 따른다.
호그-크레이그 정리: 샘플 X=(X1,⋯,Xn) 이 X1,⋯,Xn∼iidN(0,σ2) 와 같이 iid로 정규분포를 따른다고 하자. 대칭행렬 A1,⋯,Ak∈Rn×n 에 대해 확률변수 Q1,⋯,Qk 가 랜덤벡터 이차형식 Qi:=XTAiX 와 같이 나타난다고 하고, 대칭행렬 A 와 확률변수 Q 를 다음과 같이 정의하자.
A=Q=A1+⋯+AkQ1+⋯+Qk
만약 Q/σ2 가 카이제곱분포 χ2(r) 을 따르고 i=1,⋯,k−1 에 대해 Qi/σ2∼χ2(ri) 이고, Qk≥0 이면 Q1,⋯,Qk 은 독립이고 Qk/σ2 는 자유도가 rk=r−r1−⋯−rk−1 인 카이제곱분포 χ2(rk) 를 따른다.
호그-크레이그 정리에 따라 Q1,⋯,Qk 는 서로 독립이다.
■