logo

クレイグの定理の証明 📂数理統計学

クレイグの定理の証明

定理

サンプル X=(X1,,Xn)\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)X1,,XniidN(0,σ2)X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right) と同様に iid正規分布 に従うと仮定する。対称行列 A,BRn×nA, B \in \mathbb{R}^{n \times n} に対して 確率変数 Q1Q_{1}Q2Q_{2}ランダムベクトル二次形式 Q1:=σ2XTAXQ_{1} := \sigma^{-2} \mathbf{X}^{T} A \mathbf{X} 及び Q2:=σ2XTBXQ_{2} := \sigma^{-2} \mathbf{X}^{T} B \mathbf{X} として定義されている場合、次のことが成立する。 Q1Q2    AB=On Q_{1} \perp Q_{2} \iff A B = O_{n} つまり、Q1Q_{1}Q2Q_{2}独立 であることと 同値条件AB=OnA B = O_{n} である。


  • OnO_{n} はサイズが n×nn \times n零行列 である。

定理

この定理は ホッグ-クレイグの定理の証明 に用いられる。

証明 1

0n\mathbf{0}_{n}nn次元 零ベクトルInI_{n}n×nn \times n 単位行列 と定義する。 rankA=rn\rank A = r \le nrankB=sn\rank B = s \le n とし、AA00 でない 固有値λ1,,λr\lambda_{1} , \cdots , \lambda_{r} と置く。

スペクトル理論: もし AAエルミート行列 であれば、ユニタリ対角化可能である: A=A    A=QΛQ A = A^{\ast} \implies A = Q^{\ast} \Lambda Q

実数行列 AA は対称行列であるため エルミート行列 であり、そのスペクトル分解 Γ1TΛ1Γ1\Gamma_{1}^{T} \Lambda_{1} \Gamma_{1} が存在する。一般性を失わずに、Λ1\Lambda_{1} の最初の rr 個の対角成分は固有値 λ1,,λr\lambda_{1} , \cdots , \lambda_{r} であり、残りは 00 とする。Γ1TRn×n\Gamma_{1}^{T} \in \mathbb{R}^{n \times n} の部分行列を Γ11TRn×r\Gamma_{11}^{T} \in \mathbb{R}^{n \times r} とする時、Λ1\Lambda_{1} の部分行列は Λ11=diag(λ1,,λr)\Lambda_{11} = \diag \left( \lambda_{1} , \cdots , \lambda_{r} \right) となる。この表記に従って AA は以下のように二つの方法で表される。 A=Γ1TΛ1Γ1=Γ11TΛ11Γ11 A = \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1} = \Gamma_{11}^{T} \Lambda_{11} \Gamma_{11} ランダムベクトル W1\mathbf{W}_{1}W1=σ1Γ11X\mathbf{W}_{1} = \sigma^{-1} \Gamma_{11} \mathbf{X} と定義すると、Q1Q_{1} は次のように表される。 Q1=σ2XTAX=σ2XTΓ11TΛ11Γ11X=(σ1Γ11X)TΛ11(σ1Γ11X)=W1TΛ11W1 \begin{align*} Q_{1} =& \sigma^{-2} \mathbf{X}^{T} A \mathbf{X} \\ =& \sigma^{-2} \mathbf{X}^{T} \Gamma_{11}^{T} \Lambda_{11} \Gamma_{11} \mathbf{X} \\ =& \left( \sigma^{-1} \Gamma_{11} \mathbf{X} \right)^{T} \Lambda_{11} \left( \sigma^{-1} \Gamma_{11} \mathbf{X} \right) \\ =& \mathbf{W}_{1}^{T} \Lambda_{11} \mathbf{W}_{1} \end{align*} 同様の過程を経て、ランクssBB に対して Q2Q_{2} を次のように表す。 B=Γ2TΛ2Γ2=Γ21TΛ22Γ21,Λ22Rs×s    Q2=W2TΛ22W2,W2:=σ1Γ21X \begin{align*} B =& \Gamma_{2}^{T} \Lambda_{2} \Gamma_{2} & \\ =& \Gamma_{21}^{T} \Lambda_{22} \Gamma_{21} & , \Lambda_{22} \in \mathbb{R}^{s \times s} \\ \implies Q_{2} =& \mathbf{W}_{2}^{T} \Lambda_{22} \mathbf{W}_{2} & , \mathbf{W}_{2} := \sigma^{-1} \Gamma_{21} \mathbf{X} \end{align*}

ここで W:=[W1W2]\mathbf{W} := \begin{bmatrix} W_{1} \\ W_{2} \end{bmatrix} と定めると以下のように表現できる。 W=σ1[Γ11Γ21]X \mathbf{W} = \sigma^{-1} \begin{bmatrix} \Gamma_{11} \\ \Gamma_{21} \end{bmatrix} \mathbf{X}

多変量正規分布の線形変換の正規性: 行列 ARm×nA \in \mathbb{R}^{m \times n}ベクトル bRm\mathbf{b} \in \mathbb{R}^{m} に対し 多変量正規分布 に従う ランダムベクトル XNn(μ,Σ)\mathbf{X} \sim N_{n} \left( \mu , \Sigma \right)線形変換 Y=AX+b\mathbf{Y} = A \mathbf{X} + \mathbf{b} は依然として多変量正規分布 Nm(Aμ+b,AΣAT)N_{m} \left( A \mu + \mathbf{b} , A \Sigma A^{T} \right) に従う。

サンプル X\mathbf{X}nn-変量正規分布 Nn(0n,In)N_{n} \left( \mathbf{0}_{n} , I_{n} \right) に従うため、その 線形変換 である W\mathbf{W} もまた平均が 0r+s\mathbf{0}_{r+s} で共分散行列が次のような (r+s)(r+s)-変量正規分布に従う。 VarW=[IrΓ11Γ21TΓ21Γ11TIs] \Var \mathbf{W} = \begin{bmatrix} I_{r} & \Gamma_{11} \Gamma_{21}^{T} \\ \Gamma_{21} \Gamma_{11}^{T} & I_{s} \end{bmatrix}

次に AABB ABABU:=Γ11TΛ11U := \Gamma_{11}^{T} \Lambda_{11}V:=Λ22Γ21V := \Lambda_{22} \Gamma_{21} に対して下記のように表される。 AB=Γ11TΛ11Γ11Γ21TΛ22Γ21=[Γ11TΛ11]Γ11Γ21T[Λ22Γ21]=UΓ11Γ21TV=U[Γ11Γ21TV] \begin{align*} AB =& \Gamma_{11}^{T} \Lambda_{11} \Gamma_{11} \cdot \Gamma_{21}^{T} \Lambda_{22} \Gamma_{21} \\ =& \left[ \Gamma_{11}^{T} \Lambda_{11} \right] \Gamma_{11} \Gamma_{21}^{T} \left[ \Lambda_{22} \Gamma_{21} \right] \\ =& U \Gamma_{11} \Gamma_{21}^{T} V \\ =& U \left[ \Gamma_{11} \Gamma_{21}^{T} V \right] \end{align*}


(    )(\impliedby)AB=OnA B = O_{n} であると仮定する。

U=Γ11TΛ11U = \Gamma_{11}^{T} \Lambda_{11}フルランク なので UUカーネル は零ベクトルのみを含む自明なベクトル空間 {0r}\left\{ \mathbf{0}_{r} \right\} であり、次を満たすためには Γ11Γ21TV\Gamma_{11} \Gamma_{21}^{T} V が零行列でなければならない。 On=AB=U[Γ11Γ21TV] O_{n} = AB = U \left[ \Gamma_{11} \Gamma_{21}^{T} V \right] 一方、VV もまたフルランクであるため、次を満たすには Γ21Γ11T\Gamma_{21} \Gamma_{11}^{T} が零行列でなければならない。 VTΓ21Γ11T=Os V^{T} \Gamma_{21} \Gamma_{11}^{T} = O_{s}

BTAT=OnB^{T} A^{T} = O_{n} についても同じ論理で Γ11Γ21T\Gamma_{11} \Gamma_{21}^{T} が零行列であることを示せるので、W\mathbf{W} の共分散行列は次のようである。 VarW=[IrΓ11Γ21TΓ21Γ11TIs]=[IrOOIs] \Var \mathbf{W} = \begin{bmatrix} I_{r} & \Gamma_{11} \Gamma_{21}^{T} \\ \Gamma_{21} \Gamma_{11}^{T} & I_{s} \end{bmatrix} = \begin{bmatrix} I_{r} & O \\ O & I_{s} \end{bmatrix}

多変量正規分布における独立とゼロ相関は等価である: X=[X1X2]:ΩRnμ=[μ1μ2]RnΣ=[Σ11Σ12Σ21Σ22]Rn×n \begin{align*} \mathbf{X} =& \begin{bmatrix} \mathbf{X}_{1} \\ \mathbf{X}_{2} \end{bmatrix} & : \Omega \to \mathbb{R}^{n} \\ \mu =& \begin{bmatrix} \mu_{1} \\ \mu_{2} \end{bmatrix} & \in \mathbb{R}^{n} \\ \Sigma =& \begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} & \in \mathbb{R}^{n \times n} \end{align*} 上記のように ジョルダンブロックフォーム を用いて表す X\mathbf{X}, μ\mu, Σ\Sigma に対し 多変量正規分布 に従う ランダムベクトル XNn(μ,Σ)\mathbf{X} \sim N_{n} \left( \mu , \Sigma \right) が与えられたとすると次が成立する。 X1X2    Σ12=Σ21=O \mathbf{X}_{1} \perp \mathbf{X}_{2} \iff \Sigma_{12} = \Sigma_{21} = O

定理からサンプル X\mathbf{X} が正規性を持つため W1W2\mathbf{W}_{1} \perp \mathbf{W}_{2} であり、それらの関数として表現される Q1=W1TΛ11W1Q_{1} = \mathbf{W}_{1}^{T} \Lambda_{11} \mathbf{W}_{1}Q2=W2TΛ22W2Q_{2} = \mathbf{W}_{2}^{T} \Lambda_{22} \mathbf{W}_{2} も互いに独立であることがわかる。


(    )(\implies)Q1Q2Q_{1} \perp Q_{2} であると仮定する。

Q1Q_{1}Q2Q_{2} が独立であれば、(0,0)(0, 0) の近傍にある (t1,t2)\left( t_{1} , t_{2} \right) に対して次が成立する。 E[exp(t1Q1+t2Q2)]=E(expt1Q1)E(expt2Q2) E \left[ \exp \left( t_{1} Q_{1} + t_{2} Q_{2} \right) \right] = E \left( \exp t_{1} Q_{1} \right) \cdot E \left( \exp t_{2} Q_{2} \right)

ここで t1Q1+t2Q2t_{1} Q_{1} + t_{2} Q_{2} は次のように表現できる。 t1Q1+t2Q2=t1XTAX+t2XTBX=XT(t1A+t2B)X \begin{align*} & t_{1} Q_{1} + t_{2} Q_{2} \\ =& t_{1} \mathbf{X}^{T} A \mathbf{X} + t_{2} \mathbf{X}^{T} B \mathbf{X} \\ =& \mathbf{X}^{T} \left( t_{1} A + t_{2} B \right) \mathbf{X} \end{align*} ここで t1A+t2Bt_{1} A + t_{2} B は依然として対称行列であるため t1Q1+t2Q2t_{1} Q_{1} + t_{2} Q_{2} もまたランダムベクトル二次形式である。

正規分布ランダムベクトル二次形式のモーメント生成関数: サンプル X=(X1,,Xn)\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)X1,,XniidN(0,σ2)X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right) のように iid正規分布 に従うと仮定する。 ランクrnr \le n対称行列 ARn×nA \in \mathbb{R}^{n \times n} に対する ランダムベクトル二次形式 Q=σ2XTAXQ = \sigma^{-2} \mathbf{X}^{T} A \mathbf{X}モーメント生成関数 は次のようになる。 MQ(t)=i=1r(12tλi)1/2=det(In2tA)1/2,t<1/2λ1 M_{Q} (t) = \prod_{i=1}^{r} \left( 1 - 2 t \lambda_{i} \right)^{-1/2} = \det \left( I_{n} - 2 t A \right)^{-1/2} \qquad , | t | < 1 / 2 \lambda_{1} ここで InRn×nI_{n} \in \mathbb{R}^{n \times n}単位行列det\det行列式 である。 λ1λr\lambda_{1} \ge \cdots \ge \lambda_{r}AA00 でない 固有値 を一般性を失わずに降順に並べたものである。

直交行列の特性: 直交行列の行列式は 11 もしくは 1-1 である。

直交行列 Γ1\Gamma_{1} の行列式は ±1\pm 1 であり、 1=detIn=detΓ1TdetΓ1 1 = \det I_{n} = \det \Gamma_{1}^{T} \det \Gamma_{1} 従って 11 であれ 1-1 であれ Γ1\Gamma_{1}Γ1T\Gamma_{1}^{T} の行列式は符号が一致する。従って t1Q1+t2Q2t_{1} Q_{1} + t_{2} Q_{2} のモーメント生成関数は次のように表現される。 (E[exp(t1Q1+t2Q2)])2=det(In2t1A2t2B)=det(Γ1TΓ12t1Γ1TΛ1Γ12t2Γ1TΓ1BΓ1TΓ1)=detΓ1Tdet(In2t1Λ12t2Γ1BΓ1T)detΓ1T=det(In2t1Λ12t2D) \begin{align*} & \left( E \left[ \exp \left( t_{1} Q_{1} + t_{2} Q_{2} \right) \right] \right)^{-2} \\ =& \det \left( I_{n} - 2 t_{1} A - 2 t_{2} B \right) \\ =& \det \left( \Gamma_{1}^{T} \Gamma_{1} - 2 t_{1} \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1} - 2 t_{2} \Gamma_{1}^{T} \Gamma_{1} B \Gamma_{1}^{T} \Gamma_{1} \right) \\ =& \det \Gamma_{1}^{T} \det \left( I_{n} - 2 t_{1} \Lambda_{1} - 2 t_{2} \Gamma_{1} B \Gamma_{1}^{T} \right) \det \Gamma_{1}^{T} \\ =& \det \left( I_{n} - 2 t_{1} \Lambda_{1} - 2 t_{2} D \right) \end{align*} ここで D=Γ1BΓ1TRr×rD = \Gamma_{1} B \Gamma_{1}^{T} \in \mathbb{R}^{r \times r} を以下のように ブロック行列 として表現しよう。 D=[D11D12D21D22] D = \begin{bmatrix} D_{11} & D_{12} \\ D_{21} & D_{22} \end{bmatrix}

DD をそのままにして Q1Q_{1} のモーメント生成関数と Q2Q_{2} のモーメント生成関数の積を書くと次のようになる。 [E(expt1Q1)E(expt2Q2)]2=i=1r(12t1λi)det(In2t2D) \begin{align*} & \left[ E \left( \exp t_{1} Q_{1} \right) \cdot E \left( \exp t_{2} Q_{2} \right) \right]^{-2} \\ =& \prod_{i=1}^{r} \left( 1 - 2 t_{1} \lambda_{i} \right) \det \left( I_{n} - 2 t_{2} D \right) \end{align*}

今までの展開を簡単に要約すると以下を得る。 det(In2t1Λ12t2D)=i=1r(12t1λi)det(In2t2D) \det \left( I_{n} - 2 t_{1} \Lambda_{1} - 2 t_{2} D \right) = \prod_{i=1}^{r} \left( 1 - 2 t_{1} \lambda_{i} \right) \det \left( I_{n} - 2 t_{2} D \right) ここで本当に行列式を計算してすべての項を見る必要はなく、t1t_{1} の累乗のみを見ればよい。右辺では (2t1)r\left( - 2 t_{1} \right)^{r} の係数が i=1rλidet(In2t2D)\prod_{i=1}^{r} \lambda_{i} \det \left( I_{n} - 2 t_{2} D \right) であることは簡単に分かるが、左辺はそれに比べて容易ではない。まず行列式内の行列を DD のブロックを基準に分けて考えたい。Λ1\Lambda_{1}Λ1=[Λ11OOO]\Lambda_{1} = \begin{bmatrix} \Lambda_{11} & O \\ O & O \end{bmatrix} として表せるので、D11D_{11} に該当する部分を det(Ir2t1Λ112t2D11)\det \left( I_{r} - 2 t_{1} \Lambda_{11} - 2 t_{2} D_{11} \right) とし、その残りを det(Inr2t2D22)\det \left( I_{n-r} - 2 t_{2} D_{22} \right) とする。ここで最終的に (2t1)r\left( - 2 t_{1} \right)^{r} の係数は i=1rλidet(In22t2D22)\prod_{i=1}^{r} \lambda_{i} \det \left( I_{n-2} - 2 t_{2} D_{22} \right) であることがわかり、両辺で t1t_{1} のみの係数を比較すると以下を得る。 det(Inr2t2D22)=det(In2t2D) \det \left( I_{n-r} - 2 t_{2} D_{22} \right) = \det \left( I_{n} - 2 t_{2} D \right)

ここで次の2つを主張したい:

  • D22D_{22}DD00 でない固有値は等しい。
  • 対称実数行列の成分ごとの二乗の和は固有値の二乗和と等しい。

Claim 1. D22D_{22}DD00 でない固有値は等しい。

行列式の性質: A,BA,Bn×nn\times n行列、kkを定数とするとき 行列式 は以下の性質を満足する。

  • (a) det(kA)=kndet(A)\det(kA) = k^{n}\det(A)

λ0\lambda \ne 0λ:=(2t2)1\lambda := \left( 2 t_{2} \right)^{-1} と仮定すると以下の等式を得る。 det(Inr1λD22)=det(In1λD)    (λ)r(λ)nrdet(Inr1λD22)=(λ)ndet(In1λD)    (λ)rdet(D22λInr)=det(DλIn) \begin{align*} & \det \left( I_{n-r} - {\frac{ 1 }{ \lambda }} D_{22} \right) = \det \left( I_{n} - {\frac{ 1 }{ \lambda }} D \right) \\ \implies & \left( - \lambda \right)^{r} \cdot \left( - \lambda \right)^{n-r} \det \left( I_{n-r} - {\frac{ 1 }{ \lambda }} D_{22} \right) = \left( - \lambda \right)^{n} \det \left( I_{n} - {\frac{ 1 }{ \lambda }} D \right) \\ \implies & \left( - \lambda \right)^{r} \det \left( D_{22} - \lambda I_{n-r} \right) = \det \left( D - \lambda I_{n} \right) \end{align*}

固有値の同値条件: λ\lambdaAA の固有値であることと同値条件は次の通り。 det(AλI)=0 \det (A -\lambda I) = 0

結局 λ0\lambda \ne 0det(D22λInr)=0\det \left( D_{22} - \lambda I_{n-r} \right) = 0 及び det(DλIn)=0\det \left( D - \lambda I_{n} \right) = 0 を同時に満たすため D22D_{22}DD の固有値は等しい。

Claim 2. 対称実数行列の成分別二乗の和は固有値の二乗和と等しい。

対角化可能な行列の累乗の対角和: 対角化可能行列 ACn×nA \in \mathbb{C}^{n \times n}自然数 kNk \in \mathbb{N} が与えられたとする。 AA固有値λ1,,λn\lambda_{1} , \cdots , \lambda_{n} とした場合、以下が成り立つ。 trAk=i=1nλik \operatorname{tr} A^{k} = \sum_{i=1}^{n} \lambda_{i}^{k} ここで tr\operatorname{tr}トレース である。

対称行列 M=(mij)M = \left( m_{ij} \right) の成分の二乗の和は 行列の累乗の対角和 trMTM\operatorname{tr} M^{T} M で表現できるため、次が成立する。 i,jmij2=trMTM=trM2=l=1nλl2 \sum_{i,j} m_{ij}^{2} = \operatorname{tr} M^{T} M = \operatorname{tr} M^{2} = \sum_{l=1}^{n} \lambda_{l}^{2}


DDD22D_{22} はその定義から対称行列であり実数行列であるため対角化可能である。2つの行列の成分別二乗和はそれぞれの行列の固有値の二乗和と等しいため、DD の成分別二乗和と D22D_{22} の成分別二乗和は等しくなければならない。ところが両行列とも実数行列であるため、D11D_{11}D12D_{12}D21D_{21} のすべてが零行列でなければならない。Λ1\Lambda_{1}DD の積を計算すると Λ1D=[Λ11OOOnr][OrOOD22]=On \Lambda_{1} D = \begin{bmatrix} \Lambda_{11} & O \\ O & O_{n-r} \end{bmatrix} \begin{bmatrix} O_{r} & O \\ O & D_{22} \end{bmatrix} = O_{n} だが、一方では A=Γ1TΛ1Γ1A = \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1}D=Γ1BΓ1TD = \Gamma_{1} B \Gamma_{1}^{T} なので次のように AB=OnAB = O_{n} を得る。 AB=Γ1TΛ1Γ1Γ1TDΓ1=Γ1TΛ1DΓ1=On \begin{align*} & A B \\ =& \Gamma_{1}^{T} \Lambda_{1} \Gamma_{1} \Gamma_{1}^{T} D \Gamma_{1} \\ =& \Gamma_{1}^{T} \Lambda_{1} D \Gamma_{1} \\ =& O_{n} \end{align*}


  1. Hogg et al. (2018). Introduction to Mathematical Statistcs(8th Edition): p562. ↩︎