logo

크레이그 정리 증명 📂수리통계학

크레이그 정리 증명

정리

샘플 X=(X1,,Xn)\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)X1,,XniidN(0,σ2)X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right) 와 같이 iid정규분포를 따른다고 하자. 대칭행렬 A,BRn×nA, B \in \mathbb{R}^{n \times n} 에 대해 확률변수 Q1Q_{1}Q2Q_{2}랜덤벡터 이차형식 Q1:=σ2XTAXQ_{1} := \sigma^{-2} \mathbf{X}^{T} A \mathbf{X} 그리고 Q2:=σ2XTBXQ_{2} := \sigma^{-2} \mathbf{X}^{T} B \mathbf{X} 와 같이 정의되어 있다고 하면, 다음이 성립한다. Q1Q2    AB=On Q_{1} \perp Q_{2} \iff A B = O_{n} 다시 말해, Q1Q_{1}Q2Q_{2}독립인 것과 동치조건AB=OnA B = O_{n} 인 것이다.


  • OnO_{n} 은 사이즈가 n×nn \times n영행렬이다.

정리

이 정리는 호그-크레이그 정리의 증명에 쓰인다.

증명 1

0n\mathbf{0}_{n}nn차원 영벡터, InI_{n}n×nn \times n 항등행렬이라 하자. rankA=rn\rank A = r \le n 이고 rankB=sn\rank B = s \le n 이라 하고, AA00 이 아닌 고유값λ1,,λr\lambda_{1} , \cdots , \lambda_{r} 이라 두자.

스펙트럴 이론: 만약 AA에르미트 행렬이면, 유니터리 대각화 가능하다: A=A    A=QΛQ A = A^{\ast} \implies A = Q^{\ast} \Lambda Q

실수행렬 AA 이 대칭행렬이므로 에르미트행렬이고, 그 스펙트럴 분해 Γ1TΛ1Γ1\Gamma_{1}^{T} \Lambda_{1} \Gamma_{1} 이 존재한다. 일반성을 잃지 않고, Λ1\Lambda_{1} 의 첫 rr 번째까지의 대각성분은 고유값 λ1,,λr\lambda_{1} , \cdots , \lambda_{r} 이고 나머지는 00 이라 하자. Γ1TRn×n\Gamma_{1}^{T} \in \mathbb{R}^{n \times n} 의 축소행렬을 Γ11TRn×r\Gamma_{11}^{T} \in \mathbb{R}^{n \times r} 이라 할 때, Λ1\Lambda_{1} 의 축소행렬은 Λ11=diag(λ1,,λr)\Lambda_{11} = \diag \left( \lambda_{1} , \cdots , \lambda_{r} \right) 이 된다. 이러한 표기에 따르면 AA 는 다음과 같이 두가지 방법으로 나타낼 수 있다. A=Γ1TΛ1Γ1=Γ11TΛ11Γ11 A = \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1} = \Gamma_{11}^{T} \Lambda_{11} \Gamma_{11} 랜덤벡터 W1\mathbf{W}_{1}W1=σ1Γ11X\mathbf{W}_{1} = \sigma^{-1} \Gamma_{11} \mathbf{X} 로 정의하면, Q1Q_{1} 은 다음과 같이 나타낼 수 있다. Q1=σ2XTAX=σ2XTΓ11TΛ11Γ11X=(σ1Γ11X)TΛ11(σ1Γ11X)=W1TΛ11W1 \begin{align*} Q_{1} =& \sigma^{-2} \mathbf{X}^{T} A \mathbf{X} \\ =& \sigma^{-2} \mathbf{X}^{T} \Gamma_{11}^{T} \Lambda_{11} \Gamma_{11} \mathbf{X} \\ =& \left( \sigma^{-1} \Gamma_{11} \mathbf{X} \right)^{T} \Lambda_{11} \left( \sigma^{-1} \Gamma_{11} \mathbf{X} \right) \\ =& \mathbf{W}_{1}^{T} \Lambda_{11} \mathbf{W}_{1} \end{align*} 이와 같은 과정을 거쳐서 랭크ssBB 에 대해 Q2Q_{2} 를 다음과 같이 나타내자. B=Γ2TΛ2Γ2=Γ21TΛ22Γ21,Λ22Rs×s    Q2=W2TΛ22W2,W2:=σ1Γ21X \begin{align*} B =& \Gamma_{2}^{T} \Lambda_{2} \Gamma_{2} & \\ =& \Gamma_{21}^{T} \Lambda_{22} \Gamma_{21} & , \Lambda_{22} \in \mathbb{R}^{s \times s} \\ \implies Q_{2} =& \mathbf{W}_{2}^{T} \Lambda_{22} \mathbf{W}_{2} & , \mathbf{W}_{2} := \sigma^{-1} \Gamma_{21} \mathbf{X} \end{align*}

이제 W:=[W1W2]\mathbf{W} := \begin{bmatrix} W_{1} \\ W_{2} \end{bmatrix} 이라 두면 다음과 같이 표현할 수도 있다. W=σ1[Γ11Γ21]X \mathbf{W} = \sigma^{-1} \begin{bmatrix} \Gamma_{11} \\ \Gamma_{21} \end{bmatrix} \mathbf{X}

다변량정규분포의 선형변환의 정규성: 행렬 ARm×nA \in \mathbb{R}^{m \times n}벡터 bRm\mathbf{b} \in \mathbb{R}^{m} 에 대해 다변량정규분포를 따르는 랜덤벡터 XNn(μ,Σ)\mathbf{X} \sim N_{n} \left( \mu , \Sigma \right)선형변환 Y=AX+b\mathbf{Y} = A \mathbf{X} + \mathbf{b} 는 여전히 다변량정규분포 Nm(Aμ+b,AΣAT)N_{m} \left( A \mu + \mathbf{b} , A \Sigma A^{T} \right) 를 따른다.

샘플 X\mathbf{X}nn-변량정규분포 Nn(0n,In)N_{n} \left( \mathbf{0}_{n} , I_{n} \right) 을 따르므로, 그 선형변환W\mathbf{W} 역시 모평균0r+s\mathbf{0}_{r+s} 이고 공분산행렬이 다음과 같은 (r+s)(r+s)-변량정규분포를 따른다. VarW=[IrΓ11Γ21TΓ21Γ11TIs] \Var \mathbf{W} = \begin{bmatrix} I_{r} & \Gamma_{11} \Gamma_{21}^{T} \\ \Gamma_{21} \Gamma_{11}^{T} & I_{s} \end{bmatrix}

이제 AABB ABABU:=Γ11TΛ11U := \Gamma_{11}^{T} \Lambda_{11}V:=Λ22Γ21V := \Lambda_{22} \Gamma_{21} 에 대해 다음과 같이 나타낼 수 있다. AB=Γ11TΛ11Γ11Γ21TΛ22Γ21=[Γ11TΛ11]Γ11Γ21T[Λ22Γ21]=UΓ11Γ21TV=U[Γ11Γ21TV] \begin{align*} AB =& \Gamma_{11}^{T} \Lambda_{11} \Gamma_{11} \cdot \Gamma_{21}^{T} \Lambda_{22} \Gamma_{21} \\ =& \left[ \Gamma_{11}^{T} \Lambda_{11} \right] \Gamma_{11} \Gamma_{21}^{T} \left[ \Lambda_{22} \Gamma_{21} \right] \\ =& U \Gamma_{11} \Gamma_{21}^{T} V \\ =& U \left[ \Gamma_{11} \Gamma_{21}^{T} V \right] \end{align*}


(    )(\impliedby) AB=OnA B = O_{n} 이라 가정하자.

U=Γ11TΛ11U = \Gamma_{11}^{T} \Lambda_{11}풀랭크이므로 UU커널은 영벡터만을 포함하는 자명한 벡터공간 {0r}\left\{ \mathbf{0}_{r} \right\} 이어야 하고, 다음을 만족하려면 Γ11Γ21TV\Gamma_{11} \Gamma_{21}^{T} V 이 영행렬이어야 한다. On=AB=U[Γ11Γ21TV] O_{n} = AB = U \left[ \Gamma_{11} \Gamma_{21}^{T} V \right] 한편 VV 역시 풀랭크기 때문에, 다음을 만족시키려면 Γ21Γ11T\Gamma_{21} \Gamma_{11}^{T} 이 영행렬이어야 한다. VTΓ21Γ11T=Os V^{T} \Gamma_{21} \Gamma_{11}^{T} = O_{s}

BTAT=OnB^{T} A^{T} = O_{n} 에 대해서도 같은 논리로 Γ11Γ21T\Gamma_{11} \Gamma_{21}^{T} 가 영행렬임을 보일 수 있으므로, W\mathbf{W} 의 공분산 행렬은 다음과 같다. VarW=[IrΓ11Γ21TΓ21Γ11TIs]=[IrOOIs] \Var \mathbf{W} = \begin{bmatrix} I_{r} & \Gamma_{11} \Gamma_{21}^{T} \\ \Gamma_{21} \Gamma_{11}^{T} & I_{s} \end{bmatrix} = \begin{bmatrix} I_{r} & O \\ O & I_{s} \end{bmatrix}

다변량정규분포에서 독립과 제로 상관관계는 동치다: X=[X1X2]:ΩRnμ=[μ1μ2]RnΣ=[Σ11Σ12Σ21Σ22]Rn×n \begin{align*} \mathbf{X} =& \begin{bmatrix} \mathbf{X}_{1} \\ \mathbf{X}_{2} \end{bmatrix} & : \Omega \to \mathbb{R}^{n} \\ \mu =& \begin{bmatrix} \mu_{1} \\ \mu_{2} \end{bmatrix} & \in \mathbb{R}^{n} \\ \Sigma =& \begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} & \in \mathbb{R}^{n \times n} \end{align*} 위와 같이 조던블럭폼으로 나타낸 X\mathbf{X}, μ\mu, Σ\Sigma 에 대해 다변량정규분포를 따르는 랜덤벡터 XNn(μ,Σ)\mathbf{X} \sim N_{n} \left( \mu , \Sigma \right) 가 주어져 있다고 하자. 그러면 다음이 성립한다. X1X2    Σ12=Σ21=O \mathbf{X}_{1} \perp \mathbf{X}_{2} \iff \Sigma_{12} = \Sigma_{21} = O

정리에서 샘플 X\mathbf{X} 가 정규성을 가지므로 W1W2\mathbf{W}_{1} \perp \mathbf{W}_{2} 이고, 그들의 함수로써 표현되는 Q1=W1TΛ11W1Q_{1} = \mathbf{W}_{1}^{T} \Lambda_{11} \mathbf{W}_{1}Q2=W2TΛ22W2Q_{2} = \mathbf{W}_{2}^{T} \Lambda_{22} \mathbf{W}_{2} 도 서로 독립이라는 것을 알 수 있다.


(    )(\implies) Q1Q2Q_{1} \perp Q_{2} 이라 가정하자.

Q1Q_{1}Q2Q_{2} 가 독립이라면 (0,0)(0, 0) 의 근방 안에 있는 (t1,t2)\left( t_{1} , t_{2} \right) 에 대해 다음이 성립한다. E[exp(t1Q1+t2Q2)]=E(expt1Q1)E(expt2Q2) E \left[ \exp \left( t_{1} Q_{1} + t_{2} Q_{2} \right) \right] = E \left( \exp t_{1} Q_{1} \right) \cdot E \left( \exp t_{2} Q_{2} \right)

여기서 t1Q1+t2Q2t_{1} Q_{1} + t_{2} Q_{2} 는 다음과 같이 표현할 수 있다. t1Q1+t2Q2=t1XTAX+t2XTBX=XT(t1A+t2B)X \begin{align*} & t_{1} Q_{1} + t_{2} Q_{2} \\ =& t_{1} \mathbf{X}^{T} A \mathbf{X} + t_{2} \mathbf{X}^{T} B \mathbf{X} \\ =& \mathbf{X}^{T} \left( t_{1} A + t_{2} B \right) \mathbf{X} \end{align*} 여기서 t1A+t2Bt_{1} A + t_{2} B 는 여전히 대칭행렬이므로 t1Q1+t2Q2t_{1} Q_{1} + t_{2} Q_{2} 역시 랜덤벡터 이차형식이다.

정규분포 랜덤벡터 이차형식의 적률생성함수: 샘플 X=(X1,,Xn)\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)X1,,XniidN(0,σ2)X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right) 와 같이 iid정규분포를 따른다고 하자. 랭크rnr \le n대칭행렬 ARn×nA \in \mathbb{R}^{n \times n} 에 대해 랜덤벡터 이차형식 Q=σ2XTAXQ = \sigma^{-2} \mathbf{X}^{T} A \mathbf{X}적률생성함수는 다음과 같다. MQ(t)=i=1r(12tλi)1/2=det(In2tA)1/2,t<1/2λ1 M_{Q} (t) = \prod_{i=1}^{r} \left( 1 - 2 t \lambda_{i} \right)^{-1/2} = \det \left( I_{n} - 2 t A \right)^{-1/2} \qquad , | t | < 1 / 2 \lambda_{1} 여기서 InRn×nI_{n} \in \mathbb{R}^{n \times n}항등행렬, det\det행렬식이다. λ1λr\lambda_{1} \ge \cdots \ge \lambda_{r}AA00 이 아닌 고유값을 일반성을 잃지 않고 내림차순으로 나열한 것이다.

직교행렬의 성질: 직교행렬의 행렬식은 11이거나 1-1이다.

직교행렬 Γ1\Gamma_{1} 의 행렬식은 ±1\pm 1 인데, 1=detIn=detΓ1TdetΓ1 1 = \det I_{n} = \det \Gamma_{1}^{T} \det \Gamma_{1} 이므로 11 이든 1-1 이든 Γ1\Gamma_{1}Γ1T\Gamma_{1}^{T} 의 행렬식은 복부호동순이다. 이에 따라 t1Q1+t2Q2t_{1} Q_{1} + t_{2} Q_{2} 의 적률생성함수는 다음과 같이 표현할 수 있다. (E[exp(t1Q1+t2Q2)])2=det(In2t1A2t2B)=det(Γ1TΓ12t1Γ1TΛ1Γ12t2Γ1TΓ1BΓ1TΓ1)=detΓ1Tdet(In2t1Λ12t2Γ1BΓ1T)detΓ1T=det(In2t1Λ12t2D) \begin{align*} & \left( E \left[ \exp \left( t_{1} Q_{1} + t_{2} Q_{2} \right) \right] \right)^{-2} \\ =& \det \left( I_{n} - 2 t_{1} A - 2 t_{2} B \right) \\ =& \det \left( \Gamma_{1}^{T} \Gamma_{1} - 2 t_{1} \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1} - 2 t_{2} \Gamma_{1}^{T} \Gamma_{1} B \Gamma_{1}^{T} \Gamma_{1} \right) \\ =& \det \Gamma_{1}^{T} \det \left( I_{n} - 2 t_{1} \Lambda_{1} - 2 t_{2} \Gamma_{1} B \Gamma_{1}^{T} \right) \det \Gamma_{1}^{T} \\ =& \det \left( I_{n} - 2 t_{1} \Lambda_{1} - 2 t_{2} D \right) \end{align*} 여기서 D=Γ1BΓ1TRr×rD = \Gamma_{1} B \Gamma_{1}^{T} \in \mathbb{R}^{r \times r} 를 다음과 같이 블럭행렬로 표현하려고 한다. D=[D11D12D21D22] D = \begin{bmatrix} D_{11} & D_{12} \\ D_{21} & D_{22} \end{bmatrix}

DD 를 그대로 두고, Q1Q_{1} 의 적률생성함수와 Q2Q_{2} 의 적률생성함수의 곱을 적어보면 다음과 같다. [E(expt1Q1)E(expt2Q2)]2=i=1r(12t1λi)det(In2t2D) \begin{align*} & \left[ E \left( \exp t_{1} Q_{1} \right) \cdot E \left( \exp t_{2} Q_{2} \right) \right]^{-2} \\ =& \prod_{i=1}^{r} \left( 1 - 2 t_{1} \lambda_{i} \right) \det \left( I_{n} - 2 t_{2} D \right) \end{align*}

지금까지의 전개를 간단히 요약하면 다음을 얻는다. det(In2t1Λ12t2D)=i=1r(12t1λi)det(In2t2D) \det \left( I_{n} - 2 t_{1} \Lambda_{1} - 2 t_{2} D \right) = \prod_{i=1}^{r} \left( 1 - 2 t_{1} \lambda_{i} \right) \det \left( I_{n} - 2 t_{2} D \right) 여기서 정말로 행렬식을 계산해서 모든 항을 볼 필요는 없고, t1t_{1} 거듭제곱만 살펴보면 된다. 우변에서 (2t1)r\left( - 2 t_{1} \right)^{r} 의 계수는 i=1rλidet(In2t2D)\prod_{i=1}^{r} \lambda_{i} \det \left( I_{n} - 2 t_{2} D \right) 임을 쉽게 알 수 있지만, 좌변은 그에 비해 만만찮다. 우선 행렬식 내부의 행렬을 DD 의 블럭을 기준으로 쪼개서 생각해보려 한다. Λ1\Lambda_{1}Λ1=[Λ11OOO]\Lambda_{1} = \begin{bmatrix} \Lambda_{11} & O \\ O & O \end{bmatrix} 와 같이 나타낼 수 있으니, D11D_{11} 에 해당하는 파트를 det(Ir2t1Λ112t2D11)\det \left( I_{r} - 2 t_{1} \Lambda_{11} - 2 t_{2} D_{11} \right) 이라 두고 그 나머지를 det(Inr2t2D22)\det \left( I_{n-r} - 2 t_{2} D_{22} \right) 라 두자. 여기서 결국 (2t1)r\left( - 2 t_{1} \right)^{r} 의 계수는 i=1rλidet(In22t2D22)\prod_{i=1}^{r} \lambda_{i} \det \left( I_{n-2} - 2 t_{2} D_{22} \right) 임을 알 수 있고, 양변에서 t1t_{1} 만의 계수를 비교하면 다음을 얻는다. det(Inr2t2D22)=det(In2t2D) \det \left( I_{n-r} - 2 t_{2} D_{22} \right) = \det \left( I_{n} - 2 t_{2} D \right)

여기서 다음 두가지를 주장하려 한다:

  • D22D_{22}DD00 이 아닌 고유값은 같다.
  • 대칭 실수행렬의 성분별 제곱의 합은 고유값의 제곱합과 같다.

Claim 1. D22D_{22}DD00 이 아닌 고유값은 같다.

행렬식의 성질: A,BA,Bn×nn\times n행렬, kk를 상수라고 하자. 행렬식은 다음과 같은 성질을 만족한다.

  • (a) det(kA)=kndet(A)\det(kA) = k^{n}\det(A)

λ0\lambda \ne 0λ:=(2t2)1\lambda := \left( 2 t_{2} \right)^{-1} 이라고 두면 다음 등식을 얻는다. det(Inr1λD22)=det(In1λD)    (λ)r(λ)nrdet(Inr1λD22)=(λ)ndet(In1λD)    (λ)rdet(D22λInr)=det(DλIn) \begin{align*} & \det \left( I_{n-r} - {\frac{ 1 }{ \lambda }} D_{22} \right) = \det \left( I_{n} - {\frac{ 1 }{ \lambda }} D \right) \\ \implies & \left( - \lambda \right)^{r} \cdot \left( - \lambda \right)^{n-r} \det \left( I_{n-r} - {\frac{ 1 }{ \lambda }} D_{22} \right) = \left( - \lambda \right)^{n} \det \left( I_{n} - {\frac{ 1 }{ \lambda }} D \right) \\ \implies & \left( - \lambda \right)^{r} \det \left( D_{22} - \lambda I_{n-r} \right) = \det \left( D - \lambda I_{n} \right) \end{align*}

고유값의 동치조건: λ\lambdaAA 의 고유값인 것과 동치조건은 다음과 같다. det(AλI)=0 \det (A -\lambda I) = 0

결국 λ0\lambda \ne 0det(D22λInr)=0\det \left( D_{22} - \lambda I_{n-r} \right) = 0det(DλIn)=0\det \left( D - \lambda I_{n} \right) = 0 을 동시에 만족하므로 D22D_{22}DD 의 고유값은 같다.

Claim 2. 대칭 실수행렬의 성분별 제곱의 합은 고유값의 제곱합과 같다.

대각화가능한 행렬의 거듭제곱의 대각합: 대각화가능행렬 ACn×nA \in \mathbb{C}^{n \times n}자연수 kNk \in \mathbb{N} 가 주어져 있다고 하자. AA고유값λ1,,λn\lambda_{1} , \cdots , \lambda_{n} 이라고 하면 다음이 성립한다. trAk=i=1nλik \operatorname{tr} A^{k} = \sum_{i=1}^{n} \lambda_{i}^{k} 여기서 tr\operatorname{tr}트레이스다.

대칭행렬 M=(mij)M = \left( m_{ij} \right) 의 성분의 제곱의 합은 행렬 제곱의 대각합 trMTM\operatorname{tr} M^{T} M 으로 나타낼 수 있으므로, 다음이 성립한다. i,jmij2=trMTM=trM2=l=1nλl2 \sum_{i,j} m_{ij}^{2} = \operatorname{tr} M^{T} M = \operatorname{tr} M^{2} = \sum_{l=1}^{n} \lambda_{l}^{2}


DDD22D_{22} 는 그 정의에서 대칭행렬이고 실수행렬이므로 대각화가능하다. 두 행렬의 성분별 제곱합은 각 행렬의 고유값의 제곱합과 같으므로 DD 의 성분별 제곱합과 D22D_{22} 의 성분별 제곱합은 같아야 한다. 그런데 두 행렬 모두 실수행렬이므로, D11D_{11}D12D_{12}, D21D_{21} 모두 영행렬이어야 한다. Λ1\Lambda_{1}DD 의 곱을 계산해보면 Λ1D=[Λ11OOOnr][OrOOD22]=On \Lambda_{1} D = \begin{bmatrix} \Lambda_{11} & O \\ O & O_{n-r} \end{bmatrix} \begin{bmatrix} O_{r} & O \\ O & D_{22} \end{bmatrix} = O_{n} 인데, 한편으로는 A=Γ1TΛ1Γ1A = \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1} 이고 D=Γ1BΓ1TD = \Gamma_{1} B \Gamma_{1}^{T} 이므로 다음과 같이 AB=OnAB = O_{n} 을 얻는다. AB=Γ1TΛ1Γ1Γ1TDΓ1=Γ1TΛ1DΓ1=On \begin{align*} & A B \\ =& \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1} \Gamma_{1}^{T} D \Gamma_{1} \\ =& \Gamma_{1}^{T} \Lambda_{1} D \Gamma_{1} \\ =& O_{n} \end{align*}


  1. Hogg et al. (2018). Introduction to Mathematical Statistcs(8th Edition): p562. ↩︎