logo

양정부호 행렬의 고유값과 이차형식의 최대값 📂선형대수

양정부호 행렬의 고유값과 이차형식의 최대값

정리

양의 정부호 행렬 ARp×pA \in \mathbb{R}^{p \times p}고유쌍 {(λk,ek)}k=1n\left\{ \left( \lambda_{k} , e_{k} \right) \right\}_{k=1}^{n}λ1λn0\lambda_{1} \ge \cdots \ge \lambda_{n} \ge 0 순으로 정렬되어 있다고 하자. 단위 구unit Sphere 상에서 이차 형식 xTAx\mathbf{x}^{T} A \mathbf{x} 의 최대값과 최소값은 다음과 같다. maxx=1xTAx=λ1, attained when x=e1minx=1xTAx=λp, attained when x=ep \begin{align*} \max_{\left\| \mathbf{x} \right\| = 1} \mathbf{x}^{T} A \mathbf{x} =& \lambda_{1} & \text{, attained when } \mathbf{x} = e_{1} \\ \min_{\left\| \mathbf{x} \right\| = 1} \mathbf{x}^{T} A \mathbf{x} =& \lambda_{p} & \text{, attained when } \mathbf{x} = e_{p} \end{align*} 한편 k=2,,p1k = 2, \cdots , p-1 에 대해 다음이 성립한다. maxx=1xe1,,ek1xTAx=λk, attained when x=ek \max_{\substack{\left\| \mathbf{x} \right\| = 1 \\ \mathbf{x} \perp e_{1} , \cdots , e_{k-1} }} \mathbf{x}^{T} A \mathbf{x} = \lambda_{k} \quad \text{, attained when } \mathbf{x} = e_{k}


설명

주어진 정리는 x=1\left\| \mathbf{x} \right\| = 1 을 만족하는 벡터, 즉 단위구 위의 x\mathbf{x} 에 대해 이차 형식고유값과 어떤 관계를 가지고 있는지를 설명하고 있다. 특히 마지막 공식은 해공간에서 (k1)(k-1)번째 까지의 고유벡터를 제외했을 때 이차 형식의 최대값이 구체적으로 λk\lambda_{k} 와 일치한다는 것을 보여준다.

증명 1

어떤 픽스된 x0\mathbf{x} \ne 0 에 대해 x1=x/xTx\mathbf{x}_{1} = \mathbf{x} / \sqrt{ \mathbf{x}^{T} \mathbf{x} } 라 두면 x1=1\left\| \mathbf{x}_{1} \right\| = 1 이고 xTAxxTx=x1TAx1 {{ \mathbf{x}^{T} A \mathbf{x} } \over { \mathbf{x}^{T} \mathbf{x} }} = \mathbf{x}_{1}^{T} A \mathbf{x}_{1} 이므로, 증명에서는 굳이 x=1\left\| \mathbf{x} \right\| = 1 이라는 조건을 그대로 사용하지 않고 xTBxxTx{{ \mathbf{x}^{T} B \mathbf{x} } \over { \mathbf{x}^{T} \mathbf{x} }} 를 직접 다루도록 하자.


Part 1. maxxTAx=λ1\max \mathbf{x}^{T} A \mathbf{x} = \lambda_{1}

양정부호 행렬의 제곱근 행렬: 양의 정부호 행렬 AA고유쌍 {(λk,ek)}k=1n\left\{ \left( \lambda_{k} , e_{k} \right) \right\}_{k=1}^{n}λ1>>λn>0\lambda_{1} > \cdots > \lambda_{n} > 0 순으로 정렬되어 있다고 하자. 직교행렬 P=[e1en]Rn×nP = \begin{bmatrix} e_{1} & \cdots & e_{n} \end{bmatrix} \in \mathbb{R}^{n \times n}대각행렬 Λ=diag(λ1,,λn)\Lambda = \diag \left( \lambda_{1} , \cdots , \lambda_{n} \right) 에 대해 AA제곱근 행렬 A\sqrt{A} 은 다음과 같다. A=PΛPT=k=1nλkekekT \sqrt{A} = P \sqrt{\Lambda} P^{T} = \sum_{k=1}^{n} \sqrt{\lambda_{k}} e_{k} e_{k}^{T}

직교행렬 PP대각행렬 Λ\Lambda 이 위 정의에서 언급한대로 정의되어 있다고 할 때, 벡터 yRp\mathbf{y} \in \mathbb{R}^{p}y=(y1,,yp):=PTx \mathbf{y} = \left( y_{1} , \cdots , y_{p} \right) := P^{T} \mathbf{x} 와 같이 두자. 이에 따르면 x0    y0 \mathbf{x} \ne \mathbf{0} \implies \mathbf{y} \ne \mathbf{0} 이고, 따라서 항등행렬 IRp×pI \in \mathbb{R}^{p \times p} 에 대해 다음이 성립한다. xTAxxTx=xTAAxxTIx=xTPΛPTPΛPTxxTPPTx=yTΛIΛyyTy=yTΛyyTy=i=1pλiyi2i=1pyi2λ1i=1pyi2i=1pyi2=λ1 \begin{align*} & {{ \mathbf{x}^{T} A \mathbf{x} } \over { \mathbf{x}^{T} \mathbf{x} }} \\ =& {{ \mathbf{x}^{T} \sqrt{A} \sqrt{A} \mathbf{x} } \over { \mathbf{x}^{T} I \mathbf{x} }} \\ =& {{ \mathbf{x}^{T} P \sqrt{\Lambda} P^{T} P \sqrt{\Lambda} P^{T} \mathbf{x} } \over { \mathbf{x}^{T} P P^{T} \mathbf{x} }} \\ =& {{ \mathbf{y}^{T} \sqrt{\Lambda} I \sqrt{\Lambda} \mathbf{y} } \over { \mathbf{y}^{T} \mathbf{y} }} \\ =& {{ \mathbf{y}^{T} \Lambda \mathbf{y} } \over { \mathbf{y}^{T} \mathbf{y} }} \\ =& {{ \sum_{i=1}^{p} \lambda_{i} y_{i}^{2} } \over { \sum_{i=1}^{p} y_{i}^{2} }} \\ \le& \lambda_{1} {{ \sum_{i=1}^{p} y_{i}^{2} } \over { \sum_{i=1}^{p} y_{i}^{2} }} & \cdots \star \\ =& \lambda_{1} \end{align*} P=[e1en]P = \begin{bmatrix} e_{1} & \cdots & e_{n} \end{bmatrix} 이고 서로 다른 iji \ne j 에 대해 eiTej=0e_{i}^{T} e_{j} = 0, 인덱스가 같은 경우에는 eiTei=1e_{i}^{T} e_{i} = 1 이므로 만약 x=e1\mathbf{x} = e_{1} 를 선택하면 y=PTe1=[100]=e1 \mathbf{y} = P^{T} e_{1} = \begin{bmatrix} 1 \\ 0 \\ \vdots \\ 0 \end{bmatrix} = e_{1} 이고, 따라서 xTAxxTx=yTΛyyTy=e1TΛe1e1Te1=λ1 \begin{align*} & {{ \mathbf{x}^{T} A \mathbf{x} } \over { \mathbf{x}^{T} \mathbf{x} }} \\ =& {{ \mathbf{y}^{T} \Lambda \mathbf{y} } \over { \mathbf{y}^{T} \mathbf{y} }} \\ =& {{ e_{1}^{T} \Lambda e_{1} } \over { e_{1}^{T} e_{1} }} \\ =& \lambda_{1} \end{align*} 이다. 따라서 maxx=1xTAx=λ1, attained when x=e1 \max_{\left\| \mathbf{x} \right\| = 1} \mathbf{x}^{T} A \mathbf{x} = \lambda_{1} \quad \text{, attained when } \mathbf{x} = e_{1} 이고, 유사한 방법으로 다음과 같이 최소값도 구할 수 있다. \star 로 표시된 전개에서 λ1\lambda_{1}λp\lambda_{p} 로, 부등식의 방향이 거꾸로 뒤집히면 된다. minx=1xTAx=λp, attained when x=ep \min_{\left\| \mathbf{x} \right\| = 1} \mathbf{x}^{T} A \mathbf{x} = \lambda_{p} \quad \text{, attained when } \mathbf{x} = e_{p}


Part 2. maxxe1,,ek1xTAx=λk\max_{\mathbf{x} \perp e_{1} , \cdots , e_{k-1} } \mathbf{x}^{T} A \mathbf{x} = \lambda_{k}

y\mathbf{y}y=PTx\mathbf{y} = P^{T} \mathbf{x} 로 정의되었고 PP 가 직교행렬이므로 Py=xP \mathbf{y} = \mathbf{x} 다. 이 x\mathbf{x} 는 고유벡터 e1,,epe_{1} , \cdots , e_{p} 들에 다음과 같이 나타낼 수 있다. x=Py=y1e1+y2e2++ypep \begin{align*} \mathbf{x} =& P \mathbf{y} \\ =& y_{1} e_{1} + y_{2} e_{2} + \cdots + y_{p} e_{p} \end{align*} xe1,,ek1\mathbf{x} \perp e_{1} , \cdots , e_{k-1} 이라고 한다면 i<ki < k 인 모든 eie_{i} 과의 내적에 대해 0=eiTx=y1eiTe1+y2eiTe2++ypeiTep=yieiTei=yi \begin{align*} 0 =& e_{i}^{T} \mathbf{x} \\ =& y_{1} e_{i}^{T} e_{1} + y_{2} e_{i}^{T} e_{2} + \cdots + y_{p} e_{i}^{T} e_{p} \\ =& y_{i} e_{i}^{T} e_{i} \\ =& y_{i} \end{align*} 이다. 이에 따라 Part 1에서 등장한 \star 을 다시 보면 xTAxxTx=i=kpλiyi2i=kpyi2λki=kpyi2i=kpyi2 {{ \mathbf{x}^{T} A \mathbf{x} } \over { \mathbf{x}^{T} \mathbf{x} }} = {{ \sum_{i=k}^{p} \lambda_{i} y_{i}^{2} } \over { \sum_{i=k}^{p} y_{i}^{2} }} \le \lambda_{k} {{ \sum_{i=k}^{p} y_{i}^{2} } \over { \sum_{i=k}^{p} y_{i}^{2} }} 이고 yk=1y_{k} = 1yk+1==yp=0y_{k+1} = \cdots = y_{p} = 0 로 두었을 때, 즉 x=i=1pyiei=ek\mathbf{x} = \sum_{i=1}^{p} y_{i} e_{i} = e_{k} 일 때 최대값을 얻는다.


  1. Johnson. (2013). Applied Multivariate Statistical Analysis(6th Edition): p118~119. ↩︎