クレイグの定理の証明
定理
サンプル $\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)$ は $X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right)$ と同様に iid で 正規分布 に従うと仮定する。対称行列 $A, B \in \mathbb{R}^{n \times n}$ に対して 確率変数 $Q_{1}$ と $Q_{2}$ が ランダムベクトル二次形式 $Q_{1} := \sigma^{-2} \mathbf{X}^{T} A \mathbf{X}$ 及び $Q_{2} := \sigma^{-2} \mathbf{X}^{T} B \mathbf{X}$ として定義されている場合、次のことが成立する。 $$ Q_{1} \perp Q_{2} \iff A B = O_{n} $$ つまり、$Q_{1}$ と $Q_{2}$ が 独立 であることと 同値条件 は $A B = O_{n}$ である。
- $O_{n}$ はサイズが $n \times n$ の 零行列 である。
定理
この定理は ホッグ-クレイグの定理の証明 に用いられる。
証明 1
$\mathbf{0}_{n}$ を $n$次元 零ベクトル、$I_{n}$ を $n \times n$ 単位行列 と定義する。 $\rank A = r \le n$ で $\rank B = s \le n$ とし、$A$ の $0$ でない 固有値 を $\lambda_{1} , \cdots , \lambda_{r}$ と置く。
スペクトル理論: もし $A$ が エルミート行列 であれば、ユニタリ対角化可能である: $$ A = A^{\ast} \implies A = Q^{\ast} \Lambda Q $$
実数行列 $A$ は対称行列であるため エルミート行列 であり、そのスペクトル分解 $\Gamma_{1}^{T} \Lambda_{1} \Gamma_{1}$ が存在する。一般性を失わずに、$\Lambda_{1}$ の最初の $r$ 個の対角成分は固有値 $\lambda_{1} , \cdots , \lambda_{r}$ であり、残りは $0$ とする。$\Gamma_{1}^{T} \in \mathbb{R}^{n \times n}$ の部分行列を $\Gamma_{11}^{T} \in \mathbb{R}^{n \times r}$ とする時、$\Lambda_{1}$ の部分行列は $\Lambda_{11} = \diag \left( \lambda_{1} , \cdots , \lambda_{r} \right)$ となる。この表記に従って $A$ は以下のように二つの方法で表される。 $$ A = \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1} = \Gamma_{11}^{T} \Lambda_{11} \Gamma_{11} $$ ランダムベクトル $\mathbf{W}_{1}$ を $\mathbf{W}_{1} = \sigma^{-1} \Gamma_{11} \mathbf{X}$ と定義すると、$Q_{1}$ は次のように表される。 $$ \begin{align*} Q_{1} =& \sigma^{-2} \mathbf{X}^{T} A \mathbf{X} \\ =& \sigma^{-2} \mathbf{X}^{T} \Gamma_{11}^{T} \Lambda_{11} \Gamma_{11} \mathbf{X} \\ =& \left( \sigma^{-1} \Gamma_{11} \mathbf{X} \right)^{T} \Lambda_{11} \left( \sigma^{-1} \Gamma_{11} \mathbf{X} \right) \\ =& \mathbf{W}_{1}^{T} \Lambda_{11} \mathbf{W}_{1} \end{align*} $$ 同様の過程を経て、ランク が $s$ の $B$ に対して $Q_{2}$ を次のように表す。 $$ \begin{align*} B =& \Gamma_{2}^{T} \Lambda_{2} \Gamma_{2} & \\ =& \Gamma_{21}^{T} \Lambda_{22} \Gamma_{21} & , \Lambda_{22} \in \mathbb{R}^{s \times s} \\ \implies Q_{2} =& \mathbf{W}_{2}^{T} \Lambda_{22} \mathbf{W}_{2} & , \mathbf{W}_{2} := \sigma^{-1} \Gamma_{21} \mathbf{X} \end{align*} $$
ここで $\mathbf{W} := \begin{bmatrix} W_{1} \\ W_{2} \end{bmatrix}$ と定めると以下のように表現できる。 $$ \mathbf{W} = \sigma^{-1} \begin{bmatrix} \Gamma_{11} \\ \Gamma_{21} \end{bmatrix} \mathbf{X} $$
多変量正規分布の線形変換の正規性: 行列 $A \in \mathbb{R}^{m \times n}$ と ベクトル $\mathbf{b} \in \mathbb{R}^{m}$ に対し 多変量正規分布 に従う ランダムベクトル $\mathbf{X} \sim N_{n} \left( \mu , \Sigma \right)$ の 線形変換 $\mathbf{Y} = A \mathbf{X} + \mathbf{b}$ は依然として多変量正規分布 $N_{m} \left( A \mu + \mathbf{b} , A \Sigma A^{T} \right)$ に従う。
サンプル $\mathbf{X}$ は $n$-変量正規分布 $N_{n} \left( \mathbf{0}_{n} , I_{n} \right)$ に従うため、その 線形変換 である $\mathbf{W}$ もまた平均が $\mathbf{0}_{r+s}$ で共分散行列が次のような $(r+s)$-変量正規分布に従う。 $$ \Var \mathbf{W} = \begin{bmatrix} I_{r} & \Gamma_{11} \Gamma_{21}^{T} \\ \Gamma_{21} \Gamma_{11}^{T} & I_{s} \end{bmatrix} $$
次に $A$ と $B$ の 積 $AB$ は $U := \Gamma_{11}^{T} \Lambda_{11}$ と $V := \Lambda_{22} \Gamma_{21}$ に対して下記のように表される。 $$ \begin{align*} AB =& \Gamma_{11}^{T} \Lambda_{11} \Gamma_{11} \cdot \Gamma_{21}^{T} \Lambda_{22} \Gamma_{21} \\ =& \left[ \Gamma_{11}^{T} \Lambda_{11} \right] \Gamma_{11} \Gamma_{21}^{T} \left[ \Lambda_{22} \Gamma_{21} \right] \\ =& U \Gamma_{11} \Gamma_{21}^{T} V \\ =& U \left[ \Gamma_{11} \Gamma_{21}^{T} V \right] \end{align*} $$
$(\impliedby)$ が $A B = O_{n}$ であると仮定する。
$U = \Gamma_{11}^{T} \Lambda_{11}$ は フルランク なので $U$ の カーネル は零ベクトルのみを含む自明なベクトル空間 $\left\{ \mathbf{0}_{r} \right\}$ であり、次を満たすためには $\Gamma_{11} \Gamma_{21}^{T} V$ が零行列でなければならない。 $$ O_{n} = AB = U \left[ \Gamma_{11} \Gamma_{21}^{T} V \right] $$ 一方、$V$ もまたフルランクであるため、次を満たすには $\Gamma_{21} \Gamma_{11}^{T}$ が零行列でなければならない。 $$ V^{T} \Gamma_{21} \Gamma_{11}^{T} = O_{s} $$
$B^{T} A^{T} = O_{n}$ についても同じ論理で $\Gamma_{11} \Gamma_{21}^{T}$ が零行列であることを示せるので、$\mathbf{W}$ の共分散行列は次のようである。 $$ \Var \mathbf{W} = \begin{bmatrix} I_{r} & \Gamma_{11} \Gamma_{21}^{T} \\ \Gamma_{21} \Gamma_{11}^{T} & I_{s} \end{bmatrix} = \begin{bmatrix} I_{r} & O \\ O & I_{s} \end{bmatrix} $$
多変量正規分布における独立とゼロ相関は等価である: $$ \begin{align*} \mathbf{X} =& \begin{bmatrix} \mathbf{X}_{1} \\ \mathbf{X}_{2} \end{bmatrix} & : \Omega \to \mathbb{R}^{n} \\ \mu =& \begin{bmatrix} \mu_{1} \\ \mu_{2} \end{bmatrix} & \in \mathbb{R}^{n} \\ \Sigma =& \begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} & \in \mathbb{R}^{n \times n} \end{align*} $$ 上記のように ジョルダンブロックフォーム を用いて表す $\mathbf{X}$, $\mu$, $\Sigma$ に対し 多変量正規分布 に従う ランダムベクトル $\mathbf{X} \sim N_{n} \left( \mu , \Sigma \right)$ が与えられたとすると次が成立する。 $$ \mathbf{X}_{1} \perp \mathbf{X}_{2} \iff \Sigma_{12} = \Sigma_{21} = O $$
定理からサンプル $\mathbf{X}$ が正規性を持つため $\mathbf{W}_{1} \perp \mathbf{W}_{2}$ であり、それらの関数として表現される $Q_{1} = \mathbf{W}_{1}^{T} \Lambda_{11} \mathbf{W}_{1}$ と $Q_{2} = \mathbf{W}_{2}^{T} \Lambda_{22} \mathbf{W}_{2}$ も互いに独立であることがわかる。
$(\implies)$ が $Q_{1} \perp Q_{2}$ であると仮定する。
$Q_{1}$ と $Q_{2}$ が独立であれば、$(0, 0)$ の近傍にある $\left( t_{1} , t_{2} \right)$ に対して次が成立する。 $$ E \left[ \exp \left( t_{1} Q_{1} + t_{2} Q_{2} \right) \right] = E \left( \exp t_{1} Q_{1} \right) \cdot E \left( \exp t_{2} Q_{2} \right) $$
ここで $t_{1} Q_{1} + t_{2} Q_{2}$ は次のように表現できる。 $$ \begin{align*} & t_{1} Q_{1} + t_{2} Q_{2} \\ =& t_{1} \mathbf{X}^{T} A \mathbf{X} + t_{2} \mathbf{X}^{T} B \mathbf{X} \\ =& \mathbf{X}^{T} \left( t_{1} A + t_{2} B \right) \mathbf{X} \end{align*} $$ ここで $t_{1} A + t_{2} B$ は依然として対称行列であるため $t_{1} Q_{1} + t_{2} Q_{2}$ もまたランダムベクトル二次形式である。
正規分布ランダムベクトル二次形式のモーメント生成関数: サンプル $\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)$ が $X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right)$ のように iid で 正規分布 に従うと仮定する。 ランク が $r \le n$ の 対称行列 $A \in \mathbb{R}^{n \times n}$ に対する ランダムベクトル二次形式 $Q = \sigma^{-2} \mathbf{X}^{T} A \mathbf{X}$ の モーメント生成関数 は次のようになる。 $$ M_{Q} (t) = \prod_{i=1}^{r} \left( 1 - 2 t \lambda_{i} \right)^{-1/2} = \det \left( I_{n} - 2 t A \right)^{-1/2} \qquad , | t | < 1 / 2 \lambda_{1} $$ ここで $I_{n} \in \mathbb{R}^{n \times n}$ は 単位行列、$\det$ は 行列式 である。 $\lambda_{1} \ge \cdots \ge \lambda_{r}$ は $A$ の $0$ でない 固有値 を一般性を失わずに降順に並べたものである。
直交行列の特性: 直交行列の行列式は $1$ もしくは $-1$ である。
直交行列 $\Gamma_{1}$ の行列式は $\pm 1$ であり、 $$ 1 = \det I_{n} = \det \Gamma_{1}^{T} \det \Gamma_{1} $$ 従って $1$ であれ $-1$ であれ $\Gamma_{1}$ と $\Gamma_{1}^{T}$ の行列式は符号が一致する。従って $t_{1} Q_{1} + t_{2} Q_{2}$ のモーメント生成関数は次のように表現される。 $$ \begin{align*} & \left( E \left[ \exp \left( t_{1} Q_{1} + t_{2} Q_{2} \right) \right] \right)^{-2} \\ =& \det \left( I_{n} - 2 t_{1} A - 2 t_{2} B \right) \\ =& \det \left( \Gamma_{1}^{T} \Gamma_{1} - 2 t_{1} \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1} - 2 t_{2} \Gamma_{1}^{T} \Gamma_{1} B \Gamma_{1}^{T} \Gamma_{1} \right) \\ =& \det \Gamma_{1}^{T} \det \left( I_{n} - 2 t_{1} \Lambda_{1} - 2 t_{2} \Gamma_{1} B \Gamma_{1}^{T} \right) \det \Gamma_{1}^{T} \\ =& \det \left( I_{n} - 2 t_{1} \Lambda_{1} - 2 t_{2} D \right) \end{align*} $$ ここで $D = \Gamma_{1} B \Gamma_{1}^{T} \in \mathbb{R}^{r \times r}$ を以下のように ブロック行列 として表現しよう。 $$ D = \begin{bmatrix} D_{11} & D_{12} \\ D_{21} & D_{22} \end{bmatrix} $$
$D$ をそのままにして $Q_{1}$ のモーメント生成関数と $Q_{2}$ のモーメント生成関数の積を書くと次のようになる。 $$ \begin{align*} & \left[ E \left( \exp t_{1} Q_{1} \right) \cdot E \left( \exp t_{2} Q_{2} \right) \right]^{-2} \\ =& \prod_{i=1}^{r} \left( 1 - 2 t_{1} \lambda_{i} \right) \det \left( I_{n} - 2 t_{2} D \right) \end{align*} $$
今までの展開を簡単に要約すると以下を得る。 $$ \det \left( I_{n} - 2 t_{1} \Lambda_{1} - 2 t_{2} D \right) = \prod_{i=1}^{r} \left( 1 - 2 t_{1} \lambda_{i} \right) \det \left( I_{n} - 2 t_{2} D \right) $$ ここで本当に行列式を計算してすべての項を見る必要はなく、$t_{1}$ の累乗のみを見ればよい。右辺では $\left( - 2 t_{1} \right)^{r}$ の係数が $\prod_{i=1}^{r} \lambda_{i} \det \left( I_{n} - 2 t_{2} D \right)$ であることは簡単に分かるが、左辺はそれに比べて容易ではない。まず行列式内の行列を $D$ のブロックを基準に分けて考えたい。$\Lambda_{1}$ は $\Lambda_{1} = \begin{bmatrix} \Lambda_{11} & O \\ O & O \end{bmatrix}$ として表せるので、$D_{11}$ に該当する部分を $\det \left( I_{r} - 2 t_{1} \Lambda_{11} - 2 t_{2} D_{11} \right)$ とし、その残りを $\det \left( I_{n-r} - 2 t_{2} D_{22} \right)$ とする。ここで最終的に $\left( - 2 t_{1} \right)^{r}$ の係数は $\prod_{i=1}^{r} \lambda_{i} \det \left( I_{n-2} - 2 t_{2} D_{22} \right)$ であることがわかり、両辺で $t_{1}$ のみの係数を比較すると以下を得る。 $$ \det \left( I_{n-r} - 2 t_{2} D_{22} \right) = \det \left( I_{n} - 2 t_{2} D \right) $$
ここで次の2つを主張したい:
- $D_{22}$ と $D$ の $0$ でない固有値は等しい。
- 対称実数行列の成分ごとの二乗の和は固有値の二乗和と等しい。
Claim 1. $D_{22}$ と $D$ の $0$ でない固有値は等しい。
行列式の性質: $A,B$を $n\times n$行列、$k$を定数とするとき 行列式 は以下の性質を満足する。
- (a) $\det(kA) = k^{n}\det(A)$
$\lambda \ne 0$ を $\lambda := \left( 2 t_{2} \right)^{-1}$ と仮定すると以下の等式を得る。 $$ \begin{align*} & \det \left( I_{n-r} - {\frac{ 1 }{ \lambda }} D_{22} \right) = \det \left( I_{n} - {\frac{ 1 }{ \lambda }} D \right) \\ \implies & \left( - \lambda \right)^{r} \cdot \left( - \lambda \right)^{n-r} \det \left( I_{n-r} - {\frac{ 1 }{ \lambda }} D_{22} \right) = \left( - \lambda \right)^{n} \det \left( I_{n} - {\frac{ 1 }{ \lambda }} D \right) \\ \implies & \left( - \lambda \right)^{r} \det \left( D_{22} - \lambda I_{n-r} \right) = \det \left( D - \lambda I_{n} \right) \end{align*} $$
固有値の同値条件: $\lambda$ が $A$ の固有値であることと同値条件は次の通り。 $$ \det (A -\lambda I) = 0 $$
結局 $\lambda \ne 0$ は $\det \left( D_{22} - \lambda I_{n-r} \right) = 0$ 及び $\det \left( D - \lambda I_{n} \right) = 0$ を同時に満たすため $D_{22}$ と $D$ の固有値は等しい。
Claim 2. 対称実数行列の成分別二乗の和は固有値の二乗和と等しい。
対角化可能な行列の累乗の対角和: 対角化可能 な 行列 $A \in \mathbb{C}^{n \times n}$ と 自然数 $k \in \mathbb{N}$ が与えられたとする。 $A$ の 固有値 を $\lambda_{1} , \cdots , \lambda_{n}$ とした場合、以下が成り立つ。 $$ \operatorname{tr} A^{k} = \sum_{i=1}^{n} \lambda_{i}^{k} $$ ここで $\operatorname{tr}$ は トレース である。
対称行列 $M = \left( m_{ij} \right)$ の成分の二乗の和は 行列の累乗の対角和 $\operatorname{tr} M^{T} M$ で表現できるため、次が成立する。 $$ \sum_{i,j} m_{ij}^{2} = \operatorname{tr} M^{T} M = \operatorname{tr} M^{2} = \sum_{l=1}^{n} \lambda_{l}^{2} $$
$D$ と $D_{22}$ はその定義から対称行列であり実数行列であるため対角化可能である。2つの行列の成分別二乗和はそれぞれの行列の固有値の二乗和と等しいため、$D$ の成分別二乗和と $D_{22}$ の成分別二乗和は等しくなければならない。ところが両行列とも実数行列であるため、$D_{11}$ と $D_{12}$、$D_{21}$ のすべてが零行列でなければならない。$\Lambda_{1}$ と $D$ の積を計算すると $$ \Lambda_{1} D = \begin{bmatrix} \Lambda_{11} & O \\ O & O_{n-r} \end{bmatrix} \begin{bmatrix} O_{r} & O \\ O & D_{22} \end{bmatrix} = O_{n} $$ だが、一方では $A = \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1}$ で $D = \Gamma_{1} B \Gamma_{1}^{T}$ なので次のように $AB = O_{n}$ を得る。 $$ \begin{align*} & A B \\ =& \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1} \Gamma_{1}^{T} D \Gamma_{1} \\ =& \Gamma_{1}^{T} \Lambda_{1} D \Gamma_{1} \\ =& O_{n} \end{align*} $$
■
Hogg et al. (2018). Introduction to Mathematical Statistcs(8th Edition): p562. ↩︎