크레이그 정리 증명
정리
샘플 $\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)$ 이 $X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right)$ 와 같이 iid로 정규분포를 따른다고 하자. 대칭행렬 $A, B \in \mathbb{R}^{n \times n}$ 에 대해 확률변수 $Q_{1}$ 과 $Q_{2}$ 가 랜덤벡터 이차형식 $Q_{1} := \sigma^{-2} \mathbf{X}^{T} A \mathbf{X}$ 그리고 $Q_{2} := \sigma^{-2} \mathbf{X}^{T} B \mathbf{X}$ 와 같이 정의되어 있다고 하면, 다음이 성립한다. $$ Q_{1} \perp Q_{2} \iff A B = O_{n} $$ 다시 말해, $Q_{1}$ 과 $Q_{2}$ 가 독립인 것과 동치조건은 $A B = O_{n}$ 인 것이다.
- $O_{n}$ 은 사이즈가 $n \times n$ 인 영행렬이다.
정리
이 정리는 호그-크레이그 정리의 증명에 쓰인다.
증명 1
$\mathbf{0}_{n}$ 을 $n$차원 영벡터, $I_{n}$ 을 $n \times n$ 항등행렬이라 하자. $\rank A = r \le n$ 이고 $\rank B = s \le n$ 이라 하고, $A$ 의 $0$ 이 아닌 고유값을 $\lambda_{1} , \cdots , \lambda_{r}$ 이라 두자.
스펙트럴 이론: 만약 $A$ 가 에르미트 행렬이면, 유니터리 대각화 가능하다: $$ A = A^{\ast} \implies A = Q^{\ast} \Lambda Q $$
실수행렬 $A$ 이 대칭행렬이므로 에르미트행렬이고, 그 스펙트럴 분해 $\Gamma_{1}^{T} \Lambda_{1} \Gamma_{1}$ 이 존재한다. 일반성을 잃지 않고, $\Lambda_{1}$ 의 첫 $r$ 번째까지의 대각성분은 고유값 $\lambda_{1} , \cdots , \lambda_{r}$ 이고 나머지는 $0$ 이라 하자. $\Gamma_{1}^{T} \in \mathbb{R}^{n \times n}$ 의 축소행렬을 $\Gamma_{11}^{T} \in \mathbb{R}^{n \times r}$ 이라 할 때, $\Lambda_{1}$ 의 축소행렬은 $\Lambda_{11} = \diag \left( \lambda_{1} , \cdots , \lambda_{r} \right)$ 이 된다. 이러한 표기에 따르면 $A$ 는 다음과 같이 두가지 방법으로 나타낼 수 있다. $$ A = \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1} = \Gamma_{11}^{T} \Lambda_{11} \Gamma_{11} $$ 랜덤벡터 $\mathbf{W}_{1}$ 를 $\mathbf{W}_{1} = \sigma^{-1} \Gamma_{11} \mathbf{X}$ 로 정의하면, $Q_{1}$ 은 다음과 같이 나타낼 수 있다. $$ \begin{align*} Q_{1} =& \sigma^{-2} \mathbf{X}^{T} A \mathbf{X} \\ =& \sigma^{-2} \mathbf{X}^{T} \Gamma_{11}^{T} \Lambda_{11} \Gamma_{11} \mathbf{X} \\ =& \left( \sigma^{-1} \Gamma_{11} \mathbf{X} \right)^{T} \Lambda_{11} \left( \sigma^{-1} \Gamma_{11} \mathbf{X} \right) \\ =& \mathbf{W}_{1}^{T} \Lambda_{11} \mathbf{W}_{1} \end{align*} $$ 이와 같은 과정을 거쳐서 랭크가 $s$ 인 $B$ 에 대해 $Q_{2}$ 를 다음과 같이 나타내자. $$ \begin{align*} B =& \Gamma_{2}^{T} \Lambda_{2} \Gamma_{2} & \\ =& \Gamma_{21}^{T} \Lambda_{22} \Gamma_{21} & , \Lambda_{22} \in \mathbb{R}^{s \times s} \\ \implies Q_{2} =& \mathbf{W}_{2}^{T} \Lambda_{22} \mathbf{W}_{2} & , \mathbf{W}_{2} := \sigma^{-1} \Gamma_{21} \mathbf{X} \end{align*} $$
이제 $\mathbf{W} := \begin{bmatrix} W_{1} \\ W_{2} \end{bmatrix}$ 이라 두면 다음과 같이 표현할 수도 있다. $$ \mathbf{W} = \sigma^{-1} \begin{bmatrix} \Gamma_{11} \\ \Gamma_{21} \end{bmatrix} \mathbf{X} $$
다변량정규분포의 선형변환의 정규성: 행렬 $A \in \mathbb{R}^{m \times n}$ 과 벡터 $\mathbf{b} \in \mathbb{R}^{m}$ 에 대해 다변량정규분포를 따르는 랜덤벡터 $\mathbf{X} \sim N_{n} \left( \mu , \Sigma \right)$ 의 선형변환 $\mathbf{Y} = A \mathbf{X} + \mathbf{b}$ 는 여전히 다변량정규분포 $N_{m} \left( A \mu + \mathbf{b} , A \Sigma A^{T} \right)$ 를 따른다.
샘플 $\mathbf{X}$ 가 $n$-변량정규분포 $N_{n} \left( \mathbf{0}_{n} , I_{n} \right)$ 을 따르므로, 그 선형변환인 $\mathbf{W}$ 역시 모평균이 $\mathbf{0}_{r+s}$ 이고 공분산행렬이 다음과 같은 $(r+s)$-변량정규분포를 따른다. $$ \Var \mathbf{W} = \begin{bmatrix} I_{r} & \Gamma_{11} \Gamma_{21}^{T} \\ \Gamma_{21} \Gamma_{11}^{T} & I_{s} \end{bmatrix} $$
이제 $A$ 와 $B$ 의 곱 $AB$ 는 $U := \Gamma_{11}^{T} \Lambda_{11}$ 과 $V := \Lambda_{22} \Gamma_{21}$ 에 대해 다음과 같이 나타낼 수 있다. $$ \begin{align*} AB =& \Gamma_{11}^{T} \Lambda_{11} \Gamma_{11} \cdot \Gamma_{21}^{T} \Lambda_{22} \Gamma_{21} \\ =& \left[ \Gamma_{11}^{T} \Lambda_{11} \right] \Gamma_{11} \Gamma_{21}^{T} \left[ \Lambda_{22} \Gamma_{21} \right] \\ =& U \Gamma_{11} \Gamma_{21}^{T} V \\ =& U \left[ \Gamma_{11} \Gamma_{21}^{T} V \right] \end{align*} $$
$(\impliedby)$ $A B = O_{n}$ 이라 가정하자.
$U = \Gamma_{11}^{T} \Lambda_{11}$ 는 풀랭크이므로 $U$ 의 커널은 영벡터만을 포함하는 자명한 벡터공간 $\left\{ \mathbf{0}_{r} \right\}$ 이어야 하고, 다음을 만족하려면 $\Gamma_{11} \Gamma_{21}^{T} V$ 이 영행렬이어야 한다. $$ O_{n} = AB = U \left[ \Gamma_{11} \Gamma_{21}^{T} V \right] $$ 한편 $V$ 역시 풀랭크기 때문에, 다음을 만족시키려면 $\Gamma_{21} \Gamma_{11}^{T}$ 이 영행렬이어야 한다. $$ V^{T} \Gamma_{21} \Gamma_{11}^{T} = O_{s} $$
$B^{T} A^{T} = O_{n}$ 에 대해서도 같은 논리로 $\Gamma_{11} \Gamma_{21}^{T}$ 가 영행렬임을 보일 수 있으므로, $\mathbf{W}$ 의 공분산 행렬은 다음과 같다. $$ \Var \mathbf{W} = \begin{bmatrix} I_{r} & \Gamma_{11} \Gamma_{21}^{T} \\ \Gamma_{21} \Gamma_{11}^{T} & I_{s} \end{bmatrix} = \begin{bmatrix} I_{r} & O \\ O & I_{s} \end{bmatrix} $$
다변량정규분포에서 독립과 제로 상관관계는 동치다: $$ \begin{align*} \mathbf{X} =& \begin{bmatrix} \mathbf{X}_{1} \\ \mathbf{X}_{2} \end{bmatrix} & : \Omega \to \mathbb{R}^{n} \\ \mu =& \begin{bmatrix} \mu_{1} \\ \mu_{2} \end{bmatrix} & \in \mathbb{R}^{n} \\ \Sigma =& \begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} & \in \mathbb{R}^{n \times n} \end{align*} $$ 위와 같이 조던블럭폼으로 나타낸 $\mathbf{X}$, $\mu$, $\Sigma$ 에 대해 다변량정규분포를 따르는 랜덤벡터 $\mathbf{X} \sim N_{n} \left( \mu , \Sigma \right)$ 가 주어져 있다고 하자. 그러면 다음이 성립한다. $$ \mathbf{X}_{1} \perp \mathbf{X}_{2} \iff \Sigma_{12} = \Sigma_{21} = O $$
정리에서 샘플 $\mathbf{X}$ 가 정규성을 가지므로 $\mathbf{W}_{1} \perp \mathbf{W}_{2}$ 이고, 그들의 함수로써 표현되는 $Q_{1} = \mathbf{W}_{1}^{T} \Lambda_{11} \mathbf{W}_{1}$ 와 $Q_{2} = \mathbf{W}_{2}^{T} \Lambda_{22} \mathbf{W}_{2}$ 도 서로 독립이라는 것을 알 수 있다.
$(\implies)$ $Q_{1} \perp Q_{2}$ 이라 가정하자.
$Q_{1}$ 과 $Q_{2}$ 가 독립이라면 $(0, 0)$ 의 근방 안에 있는 $\left( t_{1} , t_{2} \right)$ 에 대해 다음이 성립한다. $$ E \left[ \exp \left( t_{1} Q_{1} + t_{2} Q_{2} \right) \right] = E \left( \exp t_{1} Q_{1} \right) \cdot E \left( \exp t_{2} Q_{2} \right) $$
여기서 $t_{1} Q_{1} + t_{2} Q_{2}$ 는 다음과 같이 표현할 수 있다. $$ \begin{align*} & t_{1} Q_{1} + t_{2} Q_{2} \\ =& t_{1} \mathbf{X}^{T} A \mathbf{X} + t_{2} \mathbf{X}^{T} B \mathbf{X} \\ =& \mathbf{X}^{T} \left( t_{1} A + t_{2} B \right) \mathbf{X} \end{align*} $$ 여기서 $t_{1} A + t_{2} B$ 는 여전히 대칭행렬이므로 $t_{1} Q_{1} + t_{2} Q_{2}$ 역시 랜덤벡터 이차형식이다.
정규분포 랜덤벡터 이차형식의 적률생성함수: 샘플 $\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)$ 이 $X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right)$ 와 같이 iid로 정규분포를 따른다고 하자. 랭크가 $r \le n$ 인 대칭행렬 $A \in \mathbb{R}^{n \times n}$ 에 대해 랜덤벡터 이차형식 $Q = \sigma^{-2} \mathbf{X}^{T} A \mathbf{X}$ 의 적률생성함수는 다음과 같다. $$ M_{Q} (t) = \prod_{i=1}^{r} \left( 1 - 2 t \lambda_{i} \right)^{-1/2} = \det \left( I_{n} - 2 t A \right)^{-1/2} \qquad , | t | < 1 / 2 \lambda_{1} $$ 여기서 $I_{n} \in \mathbb{R}^{n \times n}$ 은 항등행렬, $\det$ 는 행렬식이다. $\lambda_{1} \ge \cdots \ge \lambda_{r}$ 은 $A$ 의 $0$ 이 아닌 고유값을 일반성을 잃지 않고 내림차순으로 나열한 것이다.
직교행렬의 성질: 직교행렬의 행렬식은 $1$이거나 $-1$이다.
직교행렬 $\Gamma_{1}$ 의 행렬식은 $\pm 1$ 인데, $$ 1 = \det I_{n} = \det \Gamma_{1}^{T} \det \Gamma_{1} $$ 이므로 $1$ 이든 $-1$ 이든 $\Gamma_{1}$ 와 $\Gamma_{1}^{T}$ 의 행렬식은 복부호동순이다. 이에 따라 $t_{1} Q_{1} + t_{2} Q_{2}$ 의 적률생성함수는 다음과 같이 표현할 수 있다. $$ \begin{align*} & \left( E \left[ \exp \left( t_{1} Q_{1} + t_{2} Q_{2} \right) \right] \right)^{-2} \\ =& \det \left( I_{n} - 2 t_{1} A - 2 t_{2} B \right) \\ =& \det \left( \Gamma_{1}^{T} \Gamma_{1} - 2 t_{1} \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1} - 2 t_{2} \Gamma_{1}^{T} \Gamma_{1} B \Gamma_{1}^{T} \Gamma_{1} \right) \\ =& \det \Gamma_{1}^{T} \det \left( I_{n} - 2 t_{1} \Lambda_{1} - 2 t_{2} \Gamma_{1} B \Gamma_{1}^{T} \right) \det \Gamma_{1}^{T} \\ =& \det \left( I_{n} - 2 t_{1} \Lambda_{1} - 2 t_{2} D \right) \end{align*} $$ 여기서 $D = \Gamma_{1} B \Gamma_{1}^{T} \in \mathbb{R}^{r \times r}$ 를 다음과 같이 블럭행렬로 표현하려고 한다. $$ D = \begin{bmatrix} D_{11} & D_{12} \\ D_{21} & D_{22} \end{bmatrix} $$
$D$ 를 그대로 두고, $Q_{1}$ 의 적률생성함수와 $Q_{2}$ 의 적률생성함수의 곱을 적어보면 다음과 같다. $$ \begin{align*} & \left[ E \left( \exp t_{1} Q_{1} \right) \cdot E \left( \exp t_{2} Q_{2} \right) \right]^{-2} \\ =& \prod_{i=1}^{r} \left( 1 - 2 t_{1} \lambda_{i} \right) \det \left( I_{n} - 2 t_{2} D \right) \end{align*} $$
지금까지의 전개를 간단히 요약하면 다음을 얻는다. $$ \det \left( I_{n} - 2 t_{1} \Lambda_{1} - 2 t_{2} D \right) = \prod_{i=1}^{r} \left( 1 - 2 t_{1} \lambda_{i} \right) \det \left( I_{n} - 2 t_{2} D \right) $$ 여기서 정말로 행렬식을 계산해서 모든 항을 볼 필요는 없고, $t_{1}$ 거듭제곱만 살펴보면 된다. 우변에서 $\left( - 2 t_{1} \right)^{r}$ 의 계수는 $\prod_{i=1}^{r} \lambda_{i} \det \left( I_{n} - 2 t_{2} D \right)$ 임을 쉽게 알 수 있지만, 좌변은 그에 비해 만만찮다. 우선 행렬식 내부의 행렬을 $D$ 의 블럭을 기준으로 쪼개서 생각해보려 한다. $\Lambda_{1}$ 은 $\Lambda_{1} = \begin{bmatrix} \Lambda_{11} & O \\ O & O \end{bmatrix}$ 와 같이 나타낼 수 있으니, $D_{11}$ 에 해당하는 파트를 $\det \left( I_{r} - 2 t_{1} \Lambda_{11} - 2 t_{2} D_{11} \right)$ 이라 두고 그 나머지를 $\det \left( I_{n-r} - 2 t_{2} D_{22} \right)$ 라 두자. 여기서 결국 $\left( - 2 t_{1} \right)^{r}$ 의 계수는 $\prod_{i=1}^{r} \lambda_{i} \det \left( I_{n-2} - 2 t_{2} D_{22} \right)$ 임을 알 수 있고, 양변에서 $t_{1}$ 만의 계수를 비교하면 다음을 얻는다. $$ \det \left( I_{n-r} - 2 t_{2} D_{22} \right) = \det \left( I_{n} - 2 t_{2} D \right) $$
여기서 다음 두가지를 주장하려 한다:
- $D_{22}$ 와 $D$ 의 $0$ 이 아닌 고유값은 같다.
- 대칭 실수행렬의 성분별 제곱의 합은 고유값의 제곱합과 같다.
Claim 1. $D_{22}$ 와 $D$ 의 $0$ 이 아닌 고유값은 같다.
행렬식의 성질: $A,B$를 $n\times n$행렬, $k$를 상수라고 하자. 행렬식은 다음과 같은 성질을 만족한다.
- (a) $\det(kA) = k^{n}\det(A)$
$\lambda \ne 0$ 를 $\lambda := \left( 2 t_{2} \right)^{-1}$ 이라고 두면 다음 등식을 얻는다. $$ \begin{align*} & \det \left( I_{n-r} - {\frac{ 1 }{ \lambda }} D_{22} \right) = \det \left( I_{n} - {\frac{ 1 }{ \lambda }} D \right) \\ \implies & \left( - \lambda \right)^{r} \cdot \left( - \lambda \right)^{n-r} \det \left( I_{n-r} - {\frac{ 1 }{ \lambda }} D_{22} \right) = \left( - \lambda \right)^{n} \det \left( I_{n} - {\frac{ 1 }{ \lambda }} D \right) \\ \implies & \left( - \lambda \right)^{r} \det \left( D_{22} - \lambda I_{n-r} \right) = \det \left( D - \lambda I_{n} \right) \end{align*} $$
고유값의 동치조건: $\lambda$ 가 $A$ 의 고유값인 것과 동치조건은 다음과 같다. $$ \det (A -\lambda I) = 0 $$
결국 $\lambda \ne 0$ 는 $\det \left( D_{22} - \lambda I_{n-r} \right) = 0$ 과 $\det \left( D - \lambda I_{n} \right) = 0$ 을 동시에 만족하므로 $D_{22}$ 와 $D$ 의 고유값은 같다.
Claim 2. 대칭 실수행렬의 성분별 제곱의 합은 고유값의 제곱합과 같다.
대각화가능한 행렬의 거듭제곱의 대각합: 대각화가능한 행렬 $A \in \mathbb{C}^{n \times n}$ 와 자연수 $k \in \mathbb{N}$ 가 주어져 있다고 하자. $A$ 의 고유값을 $\lambda_{1} , \cdots , \lambda_{n}$ 이라고 하면 다음이 성립한다. $$ \operatorname{tr} A^{k} = \sum_{i=1}^{n} \lambda_{i}^{k} $$ 여기서 $\operatorname{tr}$ 은 트레이스다.
대칭행렬 $M = \left( m_{ij} \right)$ 의 성분의 제곱의 합은 행렬 제곱의 대각합 $\operatorname{tr} M^{T} M$ 으로 나타낼 수 있으므로, 다음이 성립한다. $$ \sum_{i,j} m_{ij}^{2} = \operatorname{tr} M^{T} M = \operatorname{tr} M^{2} = \sum_{l=1}^{n} \lambda_{l}^{2} $$
$D$ 와 $D_{22}$ 는 그 정의에서 대칭행렬이고 실수행렬이므로 대각화가능하다. 두 행렬의 성분별 제곱합은 각 행렬의 고유값의 제곱합과 같으므로 $D$ 의 성분별 제곱합과 $D_{22}$ 의 성분별 제곱합은 같아야 한다. 그런데 두 행렬 모두 실수행렬이므로, $D_{11}$ 와 $D_{12}$, $D_{21}$ 모두 영행렬이어야 한다. $\Lambda_{1}$ 와 $D$ 의 곱을 계산해보면 $$ \Lambda_{1} D = \begin{bmatrix} \Lambda_{11} & O \\ O & O_{n-r} \end{bmatrix} \begin{bmatrix} O_{r} & O \\ O & D_{22} \end{bmatrix} = O_{n} $$ 인데, 한편으로는 $A = \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1}$ 이고 $D = \Gamma_{1} B \Gamma_{1}^{T}$ 이므로 다음과 같이 $AB = O_{n}$ 을 얻는다. $$ \begin{align*} & A B \\ =& \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1} \Gamma_{1}^{T} D \Gamma_{1} \\ =& \Gamma_{1}^{T} \Lambda_{1} D \Gamma_{1} \\ =& O_{n} \end{align*} $$
■
Hogg et al. (2018). Introduction to Mathematical Statistcs(8th Edition): p562. ↩︎