크레이그 정리 증명
📂수리통계학크레이그 정리 증명
정리
샘플 X=(X1,⋯,Xn) 이 X1,⋯,Xn∼iidN(0,σ2) 와 같이 iid로 정규분포를 따른다고 하자. 대칭행렬 A,B∈Rn×n 에 대해 확률변수 Q1 과 Q2 가 랜덤벡터 이차형식 Q1:=σ−2XTAX 그리고 Q2:=σ−2XTBX 와 같이 정의되어 있다고 하면, 다음이 성립한다.
Q1⊥Q2⟺AB=On
다시 말해, Q1 과 Q2 가 독립인 것과 동치조건은 AB=On 인 것이다.
- On 은 사이즈가 n×n 인 영행렬이다.
정리
이 정리는 호그-크레이그 정리의 증명에 쓰인다.
증명
0n 을 n차원 영벡터, In 을 n×n 항등행렬이라 하자. rankA=r≤n 이고 rankB=s≤n 이라 하고, A 의 0 이 아닌 고유값을 λ1,⋯,λr 이라 두자.
스펙트럴 이론: 만약 A 가 에르미트 행렬이면, 유니터리 대각화 가능하다:
A=A∗⟹A=Q∗ΛQ
실수행렬 A 이 대칭행렬이므로 에르미트행렬이고, 그 스펙트럴 분해 Γ1TΛ1Γ1 이 존재한다. 일반성을 잃지 않고, Λ1 의 첫 r 번째까지의 대각성분은 고유값 λ1,⋯,λr 이고 나머지는 0 이라 하자. Γ1T∈Rn×n 의 축소행렬을 Γ11T∈Rn×r 이라 할 때, Λ1 의 축소행렬은 Λ11=diag(λ1,⋯,λr) 이 된다. 이러한 표기에 따르면 A 는 다음과 같이 두가지 방법으로 나타낼 수 있다.
A=Γ1TΛ1Γ1=Γ11TΛ11Γ11
랜덤벡터 W1 를 W1=σ−1Γ11X 로 정의하면, Q1 은 다음과 같이 나타낼 수 있다.
Q1====σ−2XTAXσ−2XTΓ11TΛ11Γ11X(σ−1Γ11X)TΛ11(σ−1Γ11X)W1TΛ11W1
이와 같은 과정을 거쳐서 랭크가 s 인 B 에 대해 Q2 를 다음과 같이 나타내자.
B==⟹Q2=Γ2TΛ2Γ2Γ21TΛ22Γ21W2TΛ22W2,Λ22∈Rs×s,W2:=σ−1Γ21X
이제 W:=[W1W2] 이라 두면 다음과 같이 표현할 수도 있다.
W=σ−1[Γ11Γ21]X
다변량정규분포의 선형변환의 정규성: 행렬 A∈Rm×n 과 벡터 b∈Rm 에 대해 다변량정규분포를 따르는 랜덤벡터 X∼Nn(μ,Σ) 의 선형변환 Y=AX+b 는 여전히 다변량정규분포 Nm(Aμ+b,AΣAT) 를 따른다.
샘플 X 가 n-변량정규분포 Nn(0n,In) 을 따르므로, 그 선형변환인 W 역시 모평균이 0r+s 이고 공분산행렬이 다음과 같은 (r+s)-변량정규분포를 따른다.
VarW=[IrΓ21Γ11TΓ11Γ21TIs]
이제 A 와 B 의 곱 AB 는 U:=Γ11TΛ11 과 V:=Λ22Γ21 에 대해 다음과 같이 나타낼 수 있다.
AB====Γ11TΛ11Γ11⋅Γ21TΛ22Γ21[Γ11TΛ11]Γ11Γ21T[Λ22Γ21]UΓ11Γ21TVU[Γ11Γ21TV]
(⟸) AB=On 이라 가정하자.
U=Γ11TΛ11 는 풀랭크이므로 U 의 커널은 영벡터만을 포함하는 자명한 벡터공간 {0r} 이어야 하고, 다음을 만족하려면 Γ11Γ21TV 이 영행렬이어야 한다.
On=AB=U[Γ11Γ21TV]
한편 V 역시 풀랭크기 때문에, 다음을 만족시키려면 Γ21Γ11T 이 영행렬이어야 한다.
VTΓ21Γ11T=Os
BTAT=On 에 대해서도 같은 논리로 Γ11Γ21T 가 영행렬임을 보일 수 있으므로, W 의 공분산 행렬은 다음과 같다.
VarW=[IrΓ21Γ11TΓ11Γ21TIs]=[IrOOIs]
다변량정규분포에서 독립과 제로 상관관계는 동치다:
X=μ=Σ=[X1X2][μ1μ2][Σ11Σ21Σ12Σ22]:Ω→Rn∈Rn∈Rn×n
위와 같이 조던블럭폼으로 나타낸 X, μ, Σ 에 대해 다변량정규분포를 따르는 랜덤벡터 X∼Nn(μ,Σ) 가 주어져 있다고 하자. 그러면 다음이 성립한다.
X1⊥X2⟺Σ12=Σ21=O
정리에서 샘플 X 가 정규성을 가지므로 W1⊥W2 이고, 그들의 함수로써 표현되는 Q1=W1TΛ11W1 와 Q2=W2TΛ22W2 도 서로 독립이라는 것을 알 수 있다.
(⟹) Q1⊥Q2 이라 가정하자.
Q1 과 Q2 가 독립이라면 (0,0) 의 근방 안에 있는 (t1,t2) 에 대해 다음이 성립한다.
E[exp(t1Q1+t2Q2)]=E(expt1Q1)⋅E(expt2Q2)
여기서 t1Q1+t2Q2 는 다음과 같이 표현할 수 있다.
==t1Q1+t2Q2t1XTAX+t2XTBXXT(t1A+t2B)X
여기서 t1A+t2B 는 여전히 대칭행렬이므로 t1Q1+t2Q2 역시 랜덤벡터 이차형식이다.
정규분포 랜덤벡터 이차형식의 적률생성함수: 샘플 X=(X1,⋯,Xn) 이 X1,⋯,Xn∼iidN(0,σ2) 와 같이 iid로 정규분포를 따른다고 하자. 랭크가 r≤n 인 대칭행렬 A∈Rn×n 에 대해 랜덤벡터 이차형식 Q=σ−2XTAX 의 적률생성함수는 다음과 같다.
MQ(t)=i=1∏r(1−2tλi)−1/2=det(In−2tA)−1/2,∣t∣<1/2λ1
여기서 In∈Rn×n 은 항등행렬, det 는 행렬식이다. λ1≥⋯≥λr 은 A 의 0 이 아닌 고유값을 일반성을 잃지 않고 내림차순으로 나열한 것이다.
직교행렬의 성질: 직교행렬의 행렬식은 1이거나 −1이다.
직교행렬 Γ1 의 행렬식은 ±1 인데,
1=detIn=detΓ1TdetΓ1
이므로 1 이든 −1 이든 Γ1 와 Γ1T 의 행렬식은 복부호동순이다. 이에 따라 t1Q1+t2Q2 의 적률생성함수는 다음과 같이 표현할 수 있다.
====(E[exp(t1Q1+t2Q2)])−2det(In−2t1A−2t2B)det(Γ1TΓ1−2t1Γ1TΛ1Γ1−2t2Γ1TΓ1BΓ1TΓ1)detΓ1Tdet(In−2t1Λ1−2t2Γ1BΓ1T)detΓ1Tdet(In−2t1Λ1−2t2D)
여기서 D=Γ1BΓ1T∈Rr×r 를 다음과 같이 블럭행렬로 표현하려고 한다.
D=[D11D21D12D22]
D 를 그대로 두고, Q1 의 적률생성함수와 Q2 의 적률생성함수의 곱을 적어보면 다음과 같다.
=[E(expt1Q1)⋅E(expt2Q2)]−2i=1∏r(1−2t1λi)det(In−2t2D)
지금까지의 전개를 간단히 요약하면 다음을 얻는다.
det(In−2t1Λ1−2t2D)=i=1∏r(1−2t1λi)det(In−2t2D)
여기서 정말로 행렬식을 계산해서 모든 항을 볼 필요는 없고, t1 거듭제곱만 살펴보면 된다. 우변에서 (−2t1)r 의 계수는 ∏i=1rλidet(In−2t2D) 임을 쉽게 알 수 있지만, 좌변은 그에 비해 만만찮다. 우선 행렬식 내부의 행렬을 D 의 블럭을 기준으로 쪼개서 생각해보려 한다. Λ1 은 Λ1=[Λ11OOO] 와 같이 나타낼 수 있으니, D11 에 해당하는 파트를 det(Ir−2t1Λ11−2t2D11) 이라 두고 그 나머지를 det(In−r−2t2D22) 라 두자. 여기서 결국 (−2t1)r 의 계수는 ∏i=1rλidet(In−2−2t2D22) 임을 알 수 있고, 양변에서 t1 만의 계수를 비교하면 다음을 얻는다.
det(In−r−2t2D22)=det(In−2t2D)
여기서 다음 두가지를 주장하려 한다:
- D22 와 D 의 0 이 아닌 고유값은 같다.
- 대칭 실수행렬의 성분별 제곱의 합은 고유값의 제곱합과 같다.
Claim 1. D22 와 D 의 0 이 아닌 고유값은 같다.
행렬식의 성질: A,B를 n×n행렬, k를 상수라고 하자. 행렬식은 다음과 같은 성질을 만족한다.
- (a) det(kA)=kndet(A)
λ=0 를 λ:=(2t2)−1 이라고 두면 다음 등식을 얻는다.
⟹⟹det(In−r−λ1D22)=det(In−λ1D)(−λ)r⋅(−λ)n−rdet(In−r−λ1D22)=(−λ)ndet(In−λ1D)(−λ)rdet(D22−λIn−r)=det(D−λIn)
고유값의 동치조건: λ 가 A 의 고유값인 것과 동치조건은 다음과 같다.
det(A−λI)=0
결국 λ=0 는 det(D22−λIn−r)=0 과 det(D−λIn)=0 을 동시에 만족하므로 D22 와 D 의 고유값은 같다.
Claim 2. 대칭 실수행렬의 성분별 제곱의 합은 고유값의 제곱합과 같다.
대각화가능한 행렬의 거듭제곱의 대각합: 대각화가능한 행렬 A∈Cn×n 와 자연수 k∈N 가 주어져 있다고 하자. A 의 고유값을 λ1,⋯,λn 이라고 하면 다음이 성립한다.
trAk=i=1∑nλik
여기서 tr 은 트레이스다.
대칭행렬 M=(mij) 의 성분의 제곱의 합은 행렬 제곱의 대각합 trMTM 으로 나타낼 수 있으므로, 다음이 성립한다.
i,j∑mij2=trMTM=trM2=l=1∑nλl2
D 와 D22 는 그 정의에서 대칭행렬이고 실수행렬이므로 대각화가능하다. 두 행렬의 성분별 제곱합은 각 행렬의 고유값의 제곱합과 같으므로 D 의 성분별 제곱합과 D22 의 성분별 제곱합은 같아야 한다. 그런데 두 행렬 모두 실수행렬이므로, D11 와 D12, D21 모두 영행렬이어야 한다. Λ1 와 D 의 곱을 계산해보면
Λ1D=[Λ11OOOn−r][OrOOD22]=On
인데, 한편으로는 A=Γ1TΛ1Γ1 이고 D=Γ1BΓ1T 이므로 다음과 같이 AB=On 을 얻는다.
===ABΓ1TΛ1Γ1Γ1TDΓ1Γ1TΛ1DΓ1On
■