logo

코크란 정리 증명 📂수리통계학

코크란 정리 증명

정리

샘플 X=(X1,,Xn)\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)X1,,XniidN(0,σ2)X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right) 와 같이 iid정규분포를 따른다고 하자. 랭크rjr_{j}대칭행렬 A1,,AkRn×nA_{1} , \cdots , A_{k} \in \mathbb{R}^{n \times n} 에 대해 확률변수 Q1,,QkQ_{1} , \cdots , Q_{k}랜덤벡터 이차형식 Qi:=XTAiXQ_{i} := \mathbf{X}^{T} A_{i} \mathbf{X} 와 같이 나타난다고 하고 샘플의 제곱합이 i=1nXi2=j=1kQj\sum_{i=1}^{n} X_{i}^{2} = \sum_{j=1}^{k} Q_{j} 이라고 하면, 다음이 성립한다. j,Qjσ2χ2(rj)j1j2,Qj1Qj2    j=1krj=n \forall j , {\frac{ Q_{j} }{ \sigma^{2} }} \sim \chi^{2} \left( r_{j} \right) \land \forall j_{1} \ne j_{2} , Q_{j_{1}} \perp Q_{j_{2}} \iff \sum_{j=1}^{k} r_{j} = n 다시 말해, QjQ_{j} 들이 서로 독립이고 카이제곱분포 χ2(rj)\chi^{2} \left( r_{j} \right) 를 따르는 것과 동치조건은 랭크 rjr_{j} 들의 합이 샘플의 크기 nn 과 같다는 것이다.

설명

이 정리는 F-검정이 사용되는 분산분석를 지탱하는 이론적 기틀이 된다.

증명

(    )(\implies) QjQ_{j} 들이 서로 독립이고 Qj/σ2χ2(rj)Q_{j} / \sigma^{2} \sim \chi^{2} \left( r_{j} \right) 라 가정하자.

확률변수들의 덧셈: Xiχ2(ri)X_i \sim \chi^2 ( r_{i} ) 이면 i=1nXiχ2(i=1nri) \sum_{i=1}^{n} X_{i} \sim \chi ^2 \left( \sum_{i=1}^{n} r_{i} \right)

Qj/σ2Q_{j} / \sigma^{2}자유도 rjr_{j} 이 카재곱분포를 따르므로 이 확률변수들의 합은 다음과 같은 카이제곱분포를 따른다. j=1kQjσ2χ2(j=1krj) \sum_{j=1}^{k} {\frac{ Q_{j} }{ \sigma^{2} }} \sim \chi^{2} \left( \sum_{j=1}^{k} r_{j} \right)

표준정규분포에서의 카이제곱분포 유도: XN(μ,σ2)X \sim N(\mu,\sigma ^2)V=(Xμσ)2χ2(1) V=\left( { X - \mu \over \sigma} \right) ^2 \sim \chi ^2 (1)

X1,,XnX_{1} , \cdots , X_{n}정규분포를 따르므로 Xi2/σ2χ2(1)X_{i}^{2} / \sigma^{2} \sim \chi^{2} \left( 1 \right) 이고, 그 합은 다음과 같은 카이제곱분포를 따른다. i=1nXi2σ2χ2(n) \sum_{i=1}^{n} {\frac{ X_{i}^{2} }{ \sigma^{2} }} \sim \chi^{2} \left( n \right)

대전제에서 i=1nXi2=j=1kQj\sum_{i=1}^{n} X_{i}^{2} = \sum_{j=1}^{k} Q_{j} 라 했으므로, n=j=1krjn = \sum_{j=1}^{k} r_{j} 이어야 한다.


(    )(\impliedby) j=1krj=n\sum_{j=1}^{k} r_{j} = n 이라 가정하자.

j=1kQj=XT(A1++Ak)X=XTX=i=1nXi2 \begin{align*} \sum_{j=1}^{k} Q_{j} =& \mathbf{X}^{T} \left( A_{1} + \cdots + A_{k} \right) \mathbf{X} \\ =& \mathbf{X}^{T} \mathbf{X} \\ =& \sum_{i=1}^{n} X_{i}^{2} \end{align*} i=1nXi2=j=1kQj\sum_{i=1}^{n} X_{i}^{2} = \sum_{j=1}^{k} Q_{j} 이라는 것은 위와 같으므로, In=j=1kAjI_{n} = \sum_{j=1}^{k} A_{j} 임을 알 수 있다. 여기서 행렬 Bj=InAjB_{j} = I_{n} - A_{j} 라 정의하면, BjB_{j}AjA_{j} 만 제외하고 나머지 A1,,AkA_{1} , \cdots , A_{k} 를 더한 것과 같다.

행렬 랭크의 준가법성: 행렬랭크준가법성을 가진다. 다시 말해, 두 행렬 A,BA, B 에 대해 다음이 성립한다. rank(A+B)rankA+rankB \rank \left( A + B \right) \le \rank A + \rank B

Rj0R_{j_{0}}Bj0B_{j_{0}} 의 랭크라 하면, 행렬 합의 랭크는 행렬 랭크의 합보다 작거나 같으므로 다음의 부등식을 얻는다. Rj0=rankBj0rank(InAj0)=j=1krjrj0=nrj0 R_{j_{0}} = \rank B_{j_{0}} \le \rank \left( I_{n} - A_{j_{0}} \right) = \sum_{j=1}^{k} r_{j} - r_{j_{0}} = n - r_{j_{0}} 그런데 한편으로는 In=Aj0+Bj0I_{n} = A_{j_{0}} + B_{j_{0}} 이므로 nrj0+Rj0    nrj0Rj0n \le r_{j_{0}} + R_{j_{0}} \implies n - r_{j_{0}} \le R_{j_{0}} 이고, 정확하게 Rj0=nrj0R_{j_{0}} = n - r_{j_{0}} 이 성립한다.

이는 Bj0B_{j_{0}}Rj0=nrj0R_{j_{0}} = n - r_{j_{0}} 개 만큼의 00 이 아닌 고유값을 가지고 있다는 의미가 된다. Bj0B_{j_{0}} 의 고유값 λ\lambdadet(Bj0λI)=0\det \left( B_{j_{0}} - \lambda I \right) = 0 을 만족해야 하고, Bj0=InAj0B_{j_{0}} = I_{n} - A_{j_{0}} 이므로 다음과 같이 다시 적을 수 있다. det(InAj0λIn)=det(Aj0(1λ)In)=0 \det \left( I_{n} - A_{j_{0}} - \lambda I_{n} \right) = \det \left( A_{j_{0}} - \left( 1 - \lambda \right) I_{n} \right) = 0 따라서 Aj0A_{j_{0}} 의 고유값은 Bj0B_{j_{0}} 의 고유값과 11 씩 차이가 나고, Bj0B_{j_{0}}00 인 고유값이 정확히 rj0r_{j_{0}} 개 였으니 Aj0A_{j_{0}}11 인 고유값을 정확히 rj0r_{j_{0}} 개 가진다. 대전제에서 rankAj=rj\rank A_{j} = r_{j} 이라 했으므로 Aj0A_{j_{0}}rj0r_{j_{0}} 개의 11 인 고유값을 가지고 나머지는 모두 00 이다.

고유값이 0011 뿐인 대칭 실수행렬: 대칭행렬 ARn×nA \in \mathbb{R}^{n \times n}고유값이 모두 00 이거나 11 이면 AA멱등행렬이다.

정규분포 랜덤벡터 이차형식의 카이제곱성의 동치조건: 샘플 X=(X1,,Xn)\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)X1,,XniidN(0,σ2)X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right) 와 같이 iid정규분포를 따른다고 하자. 랭크rnr \le n대칭행렬 ARn×nA \in \mathbb{R}^{n \times n} 에 대해 랜덤벡터 이차형식Q=σ2XTAXQ = \sigma^{-2} \mathbf{X}^{T} A \mathbf{X} 라 두면, 다음이 성립한다. Qχ2(r)    A2=A Q \sim \chi^{2} (r) \iff A^{2} = A

모든 대칭 실수행렬 A1,,AkA_{1} , \cdots , A_{k} 는 고유값이 0011 뿐이므로 멱등행렬이고, 랭크가 rjr_{j} 이므로 Qj/σ2Q_{j} / \sigma^{2} 는 카이제곱분포 χ2(rj)\chi^{2} \left( r_{j} \right) 를 따른다.

호그-크레이그 정리: 샘플 X=(X1,,Xn)\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)X1,,XniidN(0,σ2)X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right) 와 같이 iid정규분포를 따른다고 하자. 대칭행렬 A1,,AkRn×nA_{1} , \cdots , A_{k} \in \mathbb{R}^{n \times n} 에 대해 확률변수 Q1,,QkQ_{1} , \cdots , Q_{k}랜덤벡터 이차형식 Qi:=XTAiXQ_{i} := \mathbf{X}^{T} A_{i} \mathbf{X} 와 같이 나타난다고 하고, 대칭행렬 AA 와 확률변수 QQ 를 다음과 같이 정의하자. A=A1++AkQ=Q1++Qk \begin{align*} A =& A_{1} + \cdots + A_{k} \\ Q =& Q_{1} + \cdots + Q_{k} \end{align*} 만약 Q/σ2Q / \sigma^{2}카이제곱분포 χ2(r)\chi^{2} \left( r \right) 을 따르고 i=1,,k1i = 1 , \cdots , k-1 에 대해 Qi/σ2χ2(ri)Q_{i} / \sigma^{2} \sim \chi^{2} \left( r_{i} \right) 이고, Qk0Q_{k} \ge 0 이면 Q1,,QkQ_{1} , \cdots , Q_{k}독립이고 Qk/σ2Q_{k} / \sigma^{2} 는 자유도가 rk=rr1rk1r_{k} = r - r_{1} - \cdots - r_{k-1} 인 카이제곱분포 χ2(rk)\chi^{2} \left( r_{k} \right) 를 따른다.

호그-크레이그 정리에 따라 Q1,,QkQ_{1} , \cdots , Q_{k} 는 서로 독립이다.