正定値半不定行列と拡張されたコーシー・シュワルツの不等式の証明
定理 1
任意の二つのベクトル$\mathbf{b}, \mathbf{d} \in \mathbf{R}^{p}$と正定値行列$A \in \mathbf{R}^{p \times p}$に対して、以下の不等式が成立する。 $$ \left( \mathbf{b}^{T} \mathbf{d} \right)^{2} \le \left( \mathbf{b}^{T} A \mathbf{b} \right) \left( \mathbf{d}^{T} A^{-1} \mathbf{d} \right) $$ これが等式になる同値条件はある定数$c \in \mathbb{R}$に対して$\mathbf{b} = c A^{-1} \mathbf{d}$または$\mathbf{d} = c A \mathbf{b}$として表されることである。
- $X^{T}$は行列$X$の転置行列である。
説明
この不等式はコーシー・シュワルツの不等式の一般化であり、$A$が恒等行列$I$のとき元のコーシー・シュワルツの不等式と同じになる。不等式の右辺に二次形式が登場し、自然に数理統計学での応用範囲が広い。
証明
Part 1. 不等式
正定値行列の逆行列と平方根行列: 正定値行列$A$の固有対$\left\{ \left( \lambda_{k} , e_{k} \right) \right\}_{k=1}^{n}$が$\lambda_{1} > \cdots > \lambda_{n} > 0$の順で整列されているとする。直交行列$P = \begin{bmatrix} e_{1} & \cdots & e_{n} \end{bmatrix} \in \mathbb{R}^{n \times n}$と対角行列$\Lambda = \diag \left( \lambda_{1} , \cdots , \lambda_{n} \right)$に関して$A$の逆行列$A^{-1}$と平方根行列$\sqrt{A}$は以下のようになる。 $$ \begin{align*} A^{-1} =& P \Lambda^{-1} P^{T} = \sum_{k=1}^{n} {{ 1 } \over { \lambda_{k} }} e_{k} e_{k}^{T} \\ \sqrt{A} =& P \sqrt{\Lambda} P^{T} = \sum_{k=1}^{n} \sqrt{\lambda_{k}} e_{k} e_{k}^{T} \end{align*} $$
$A$が正定値行列ならばその平方根行列は $$ \sqrt{A} = P \sqrt{\Lambda} P^{T} = \sum_{k=1}^{n} \sqrt{\lambda_{k}} e_{k} e_{k}^{T} $$ となり、従って転置行列であるから$A^{1/2} = \left( A^{1/2} \right)^{T}$が成立し、同じ理由で$A^{-1}$も転置行列である。
$\mathbf{x} := A^{1/2} \mathbf{b}$と$\mathbf{y} := A^{-1/2} \mathbf{d}$とすると元のコーシー・シュワルツの不等式$\left( \mathbf{x}^{T} \mathbf{y} \right) \le \left( \mathbf{x}^{T} \mathbf{x} \right) \left( \mathbf{y}^{T} \mathbf{y} \right)$に従って $$ \begin{align*} & \left( \mathbf{b}^{T} \mathbf{d} \right)^{2} \\ =& \left( \mathbf{b}^{T} A^{1/2} A^{-1/2} \mathbf{d} \right)^{2} \\ =& \left( \mathbf{b}^{T} \left( A^{1/2} \right)^{T} A^{-1/2} \mathbf{d} \right)^{2} \\ =& \left( \left( A^{1/2} \mathbf{b} \right)^{T} A^{-1/2} \mathbf{d} \right)^{2} \\ =& \left( \left( A^{1/2} \mathbf{b} \right)^{T} A^{-1/2} \mathbf{d} \right)^{2} \\ =& \left( \mathbf{x}^{T} \mathbf{y} \right)^{2} \\ \le & \left( \mathbf{x}^{T} \mathbf{x} \right) \left( \mathbf{y}^{T} \mathbf{y} \right) \\ \le & \left( \left( A^{1/2} \mathbf{b} \right)^{T} \left( A^{1/2} \mathbf{b} \right) \right) \left( \left( A^{-1/2} \mathbf{d} \right)^{T} \left( A^{-1/2} \mathbf{d} \right) \right) \\ =& \left( \mathbf{b}^{T} A \mathbf{b} \right) \left( \mathbf{d}^{T} A^{-1} \mathbf{d} \right) \end{align*} $$ として一般化できる。
Part 2. 等式
ある定数が$c = 0$であれば$\mathbf{b} = \mathbf{0}$または$\mathbf{d} = \mathbf{0}$で等式が自明に成立する。両方がゼロベクトルでなく、一般性を失わずに$\mathbf{d} = c A \mathbf{b}$と仮定すると $$ \begin{align*} \mathbf{b}^{T} \mathbf{d} =& \mathbf{b}^{T} c A \mathbf{b} \\ =& c \mathbf{b}^{T} A \mathbf{b} \end{align*} $$ も成立し $$ \begin{align*} \mathbf{b}^{T} \mathbf{d} =& \left( {{ 1 } \over { c }} A^{-1} \mathbf{d} \right)^{T} \mathbf{d} \\ =& {{ 1 } \over { c }} \mathbf{d}^{T} A^{-1} \mathbf{d} \end{align*} $$ も成立する。これによって得られた二つの式の両端を乗じると次の等式を得る。 $$ \left( \mathbf{b}^{T} \mathbf{d} \right)^{2} = \left( \mathbf{b}^{T} A \mathbf{b} \right) \left( \mathbf{d}^{T} A^{-1} \mathbf{d} \right) $$
■
Johnson. (2013). Applied Multivariate Statistical Analysis(6th Edition): p117. ↩︎