양정부호 행렬의 고유값과 이차형식의 최대값
정리
양의 정부호 행렬 $A \in \mathbb{R}^{p \times p}$ 의 고유쌍 $\left\{ \left( \lambda_{k} , e_{k} \right) \right\}_{k=1}^{n}$ 이 $\lambda_{1} \ge \cdots \ge \lambda_{n} \ge 0$ 순으로 정렬되어 있다고 하자. 단위 구unit Sphere 상에서 이차 형식 $\mathbf{x}^{T} A \mathbf{x}$ 의 최대값과 최소값은 다음과 같다. $$ \begin{align*} \max_{\left\| \mathbf{x} \right\| = 1} \mathbf{x}^{T} A \mathbf{x} =& \lambda_{1} & \text{, attained when } \mathbf{x} = e_{1} \\ \min_{\left\| \mathbf{x} \right\| = 1} \mathbf{x}^{T} A \mathbf{x} =& \lambda_{p} & \text{, attained when } \mathbf{x} = e_{p} \end{align*} $$ 한편 $k = 2, \cdots , p-1$ 에 대해 다음이 성립한다. $$ \max_{\substack{\left\| \mathbf{x} \right\| = 1 \\ \mathbf{x} \perp e_{1} , \cdots , e_{k-1} }} \mathbf{x}^{T} A \mathbf{x} = \lambda_{k} \quad \text{, attained when } \mathbf{x} = e_{k} $$
설명
주어진 정리는 $\left\| \mathbf{x} \right\| = 1$ 을 만족하는 벡터, 즉 단위구 위의 $\mathbf{x}$ 에 대해 이차 형식이 고유값과 어떤 관계를 가지고 있는지를 설명하고 있다. 특히 마지막 공식은 해공간에서 $(k-1)$번째 까지의 고유벡터를 제외했을 때 이차 형식의 최대값이 구체적으로 $\lambda_{k}$ 와 일치한다는 것을 보여준다.
증명 1
어떤 픽스된 $\mathbf{x} \ne 0$ 에 대해 $\mathbf{x}_{1} = \mathbf{x} / \sqrt{ \mathbf{x}^{T} \mathbf{x} }$ 라 두면 $\left\| \mathbf{x}_{1} \right\| = 1$ 이고 $$ {{ \mathbf{x}^{T} A \mathbf{x} } \over { \mathbf{x}^{T} \mathbf{x} }} = \mathbf{x}_{1}^{T} A \mathbf{x}_{1} $$ 이므로, 증명에서는 굳이 $\left\| \mathbf{x} \right\| = 1$ 이라는 조건을 그대로 사용하지 않고 ${{ \mathbf{x}^{T} B \mathbf{x} } \over { \mathbf{x}^{T} \mathbf{x} }}$ 를 직접 다루도록 하자.
Part 1. $\max \mathbf{x}^{T} A \mathbf{x} = \lambda_{1}$
양정부호 행렬의 제곱근 행렬: 양의 정부호 행렬 $A$ 의 고유쌍 $\left\{ \left( \lambda_{k} , e_{k} \right) \right\}_{k=1}^{n}$ 이 $\lambda_{1} > \cdots > \lambda_{n} > 0$ 순으로 정렬되어 있다고 하자. 직교행렬 $P = \begin{bmatrix} e_{1} & \cdots & e_{n} \end{bmatrix} \in \mathbb{R}^{n \times n}$ 와 대각행렬 $\Lambda = \diag \left( \lambda_{1} , \cdots , \lambda_{n} \right)$ 에 대해 $A$ 의 제곱근 행렬 $\sqrt{A}$ 은 다음과 같다. $$ \sqrt{A} = P \sqrt{\Lambda} P^{T} = \sum_{k=1}^{n} \sqrt{\lambda_{k}} e_{k} e_{k}^{T} $$
직교행렬 $P$ 와 대각행렬 $\Lambda$ 이 위 정의에서 언급한대로 정의되어 있다고 할 때, 벡터 $\mathbf{y} \in \mathbb{R}^{p}$ 를 $$ \mathbf{y} = \left( y_{1} , \cdots , y_{p} \right) := P^{T} \mathbf{x} $$ 와 같이 두자. 이에 따르면 $$ \mathbf{x} \ne \mathbf{0} \implies \mathbf{y} \ne \mathbf{0} $$ 이고, 따라서 항등행렬 $I \in \mathbb{R}^{p \times p}$ 에 대해 다음이 성립한다. $$ \begin{align*} & {{ \mathbf{x}^{T} A \mathbf{x} } \over { \mathbf{x}^{T} \mathbf{x} }} \\ =& {{ \mathbf{x}^{T} \sqrt{A} \sqrt{A} \mathbf{x} } \over { \mathbf{x}^{T} I \mathbf{x} }} \\ =& {{ \mathbf{x}^{T} P \sqrt{\Lambda} P^{T} P \sqrt{\Lambda} P^{T} \mathbf{x} } \over { \mathbf{x}^{T} P P^{T} \mathbf{x} }} \\ =& {{ \mathbf{y}^{T} \sqrt{\Lambda} I \sqrt{\Lambda} \mathbf{y} } \over { \mathbf{y}^{T} \mathbf{y} }} \\ =& {{ \mathbf{y}^{T} \Lambda \mathbf{y} } \over { \mathbf{y}^{T} \mathbf{y} }} \\ =& {{ \sum_{i=1}^{p} \lambda_{i} y_{i}^{2} } \over { \sum_{i=1}^{p} y_{i}^{2} }} \\ \le& \lambda_{1} {{ \sum_{i=1}^{p} y_{i}^{2} } \over { \sum_{i=1}^{p} y_{i}^{2} }} & \cdots \star \\ =& \lambda_{1} \end{align*} $$ $P = \begin{bmatrix} e_{1} & \cdots & e_{n} \end{bmatrix}$ 이고 서로 다른 $i \ne j$ 에 대해 $e_{i}^{T} e_{j} = 0$, 인덱스가 같은 경우에는 $e_{i}^{T} e_{i} = 1$ 이므로 만약 $\mathbf{x} = e_{1}$ 를 선택하면 $$ \mathbf{y} = P^{T} e_{1} = \begin{bmatrix} 1 \\ 0 \\ \vdots \\ 0 \end{bmatrix} = e_{1} $$ 이고, 따라서 $$ \begin{align*} & {{ \mathbf{x}^{T} A \mathbf{x} } \over { \mathbf{x}^{T} \mathbf{x} }} \\ =& {{ \mathbf{y}^{T} \Lambda \mathbf{y} } \over { \mathbf{y}^{T} \mathbf{y} }} \\ =& {{ e_{1}^{T} \Lambda e_{1} } \over { e_{1}^{T} e_{1} }} \\ =& \lambda_{1} \end{align*} $$ 이다. 따라서 $$ \max_{\left\| \mathbf{x} \right\| = 1} \mathbf{x}^{T} A \mathbf{x} = \lambda_{1} \quad \text{, attained when } \mathbf{x} = e_{1} $$ 이고, 유사한 방법으로 다음과 같이 최소값도 구할 수 있다. $\star$ 로 표시된 전개에서 $\lambda_{1}$ 이 $\lambda_{p}$ 로, 부등식의 방향이 거꾸로 뒤집히면 된다. $$ \min_{\left\| \mathbf{x} \right\| = 1} \mathbf{x}^{T} A \mathbf{x} = \lambda_{p} \quad \text{, attained when } \mathbf{x} = e_{p} $$
Part 2. $\max_{\mathbf{x} \perp e_{1} , \cdots , e_{k-1} } \mathbf{x}^{T} A \mathbf{x} = \lambda_{k}$
$\mathbf{y}$ 가 $\mathbf{y} = P^{T} \mathbf{x}$ 로 정의되었고 $P$ 가 직교행렬이므로 $P \mathbf{y} = \mathbf{x}$ 다. 이 $\mathbf{x}$ 는 고유벡터 $e_{1} , \cdots , e_{p}$ 들에 다음과 같이 나타낼 수 있다. $$ \begin{align*} \mathbf{x} =& P \mathbf{y} \\ =& y_{1} e_{1} + y_{2} e_{2} + \cdots + y_{p} e_{p} \end{align*} $$ $\mathbf{x} \perp e_{1} , \cdots , e_{k-1}$ 이라고 한다면 $i < k$ 인 모든 $e_{i}$ 과의 내적에 대해 $$ \begin{align*} 0 =& e_{i}^{T} \mathbf{x} \\ =& y_{1} e_{i}^{T} e_{1} + y_{2} e_{i}^{T} e_{2} + \cdots + y_{p} e_{i}^{T} e_{p} \\ =& y_{i} e_{i}^{T} e_{i} \\ =& y_{i} \end{align*} $$ 이다. 이에 따라 Part 1에서 등장한 $\star$ 을 다시 보면 $$ {{ \mathbf{x}^{T} A \mathbf{x} } \over { \mathbf{x}^{T} \mathbf{x} }} = {{ \sum_{i=k}^{p} \lambda_{i} y_{i}^{2} } \over { \sum_{i=k}^{p} y_{i}^{2} }} \le \lambda_{k} {{ \sum_{i=k}^{p} y_{i}^{2} } \over { \sum_{i=k}^{p} y_{i}^{2} }} $$ 이고 $y_{k} = 1$ 과 $y_{k+1} = \cdots = y_{p} = 0$ 로 두었을 때, 즉 $\mathbf{x} = \sum_{i=1}^{p} y_{i} e_{i} = e_{k}$ 일 때 최대값을 얻는다.
■
Johnson. (2013). Applied Multivariate Statistical Analysis(6th Edition): p118~119. ↩︎