トレースの行列微分
公式
$\mathbf{X}$を$n \times n$行列としよう。$\dfrac{\partial }{\partial \mathbf{X}} = \nabla_{\mathbf{X}}$を行列勾配としよう。すると次のような公式が成り立つ。
$$ \dfrac{\partial \Tr(\mathbf{X})}{\partial \mathbf{X}} = I, \qquad \dfrac{\partial \Tr(a\mathbf{X})}{\partial \mathbf{X}} = aI \tag{1} $$
ここで $a \in \mathbb{R}$は定数(スカラー)であり、$I$は恒等行列である。
$\mathbf{A} \in \mathbb{R}^{n \times p}$として、$\mathbf{X} \in \mathbb{R}^{p \times n}$としよう。次が成り立つ。 $$ \dfrac{\partial \Tr(\mathbf{A}\mathbf{X})}{\partial \mathbf{X}} = \dfrac{\partial \Tr( \mathbf{X}\mathbf{A})}{\partial \mathbf{X}} = \mathbf{A}^{\mathsf{T}} \tag{2} $$ $$ \dfrac{\partial \Tr(\mathbf{A}\mathbf{X}^{\mathsf{T}})}{\partial \mathbf{X}} = \dfrac{\partial \Tr( \mathbf{X}^{\mathsf{T}}\mathbf{A})}{\partial \mathbf{X}} = \mathbf{A} $$
- 帰結として次が成り立つ。$\mathbf{A} \in \mathbb{R}^{n \times p}$、$\mathbf{X} \in \mathbb{R}^{p \times q}$、$\mathbf{B} \in \mathbb{R}^{q \times n}$について次が成り立つ。 $$ \dfrac{\partial \Tr(\mathbf{A}\mathbf{X}\mathbf{B})}{\partial \mathbf{X}} = \mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}} \tag{3} $$
$\mathbf{A} \in \mathbb{R}^{n \times n}$として、$\mathbf{X} \in \mathbb{R}^{m \times n}$としよう。次が成り立つ。 $$ \dfrac{\partial \Tr(\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{X})}{\partial \mathbf{X}} = \dfrac{\partial \Tr(\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{A})}{\partial \mathbf{X}} = \dfrac{\partial \Tr(\mathbf{X}\mathbf{A}\mathbf{X}^{\mathsf{T}})}{\partial \mathbf{X}} = \mathbf{X}(\mathbf{A}^{\mathsf{T}} + \mathbf{A}) \tag{4} $$ $\mathbf{A}, \mathbf{X} \in \mathbb{R}^{n \times n}$について、次が成り立つ。 $$ \dfrac{\partial \Tr(\mathbf{A} \mathbf{X}\mathbf{X})}{\partial \mathbf{X}} = \mathbf{X}^{\mathsf{T}}\mathbf{A}^{\mathsf{T}} + \mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}} \tag{5} $$ $\mathbf{A}, \mathbf{B}, \mathbf{X} \in \mathbb{R}^{n \times n}$について、次が成り立つ。 $$ \nabla_{\mathbf{X}} \Tr (\mathbf{A} \mathbf{X}^{\mathsf{T}} \mathbf{B} \mathbf{X}) = \dfrac{\partial \Tr (\mathbf{A} \mathbf{X}^{\mathsf{T}} \mathbf{B} \mathbf{X})}{\partial \mathbf{X}} = \mathbf{B} \mathbf{X} \mathbf{A} + \mathbf{B}^{\mathsf{T}} \mathbf{X} \mathbf{A}^{\mathsf{T}} \tag{6} $$
$\mathbf{X} \in \mathbb{R}^{n \times n}$と自然数$n$について次が成り立つ。 $$ \dfrac{\partial \Tr(\mathbf{X}^{n})}{\partial \mathbf{X}} = n(\mathbf{X}^{n-1})^{\mathsf{T}} \tag{7} $$
説明
行列$A$のトレース$\Tr A$とは$A$のすべての対角成分の和を指す。これは単に値として考えることもできるが、行列をスカラーに変換する関数として考えることもできる。すると、トレースは次のように定義される関数である。
$$ \Tr : \mathbb{R}^{n \times n} \to \mathbb{R} $$
関数であれば微分について話さないわけにはいかない。関数値を考えてみると、$\Tr(A) = \sum\limits_{i=1}^{n} a_{ii}$で単純な一次関数に過ぎないため、微分可能性については心配する必要がない。ただし、変数が行列である点が直感的でないかもしれない。詳しくは勾配行列の文書を読んでみよう。
上記の結果を見ると、スカラー微分とかなり似ていることが分かり、ここからトレースとは行列の微分を直感的に扱えるようにしてくれる道具と受け取ることができる。特に、$\mathbf{A}, \mathbf{B}, \mathbf{X}$などすべての行列が対称行列であれば(行列という特異性を考慮する必要がなければ)多項式の微分とほぼ一致する結果を示している。
- $(1)$: 恒等行列$I$は行列の掛け算に対する単位元なので、スカラー微分$\dfrac{d x}{d x} = 1$と対応する結果である。
- $(2)$、$(3)$: 一次関数の微分と対応する直感的な結果である。
- $(4)$、$(5)$: 二次関数の微分と対応する結果である。
- $(7)$: 多項式の微分と対応する結果である。
下記の証明では直接計算で示したが、トレーストリックと呼ばれる方法を使用するとより簡単に計算できる。$\mathbf{X}$に対する任意の形や、$\mathbf{X}$が多く含まれる式の場合、実際に直接計算するのは非常に困難でトレーストリックを使用する必要がある。
より多くの公式はスカラー関数の行列微分表で確認できる。
証明
$(1)$
$\Tr (\mathbf{X}) = \sum\limits_{i=1}^{n} x_{ii}$であるため次が成り立つ。
$$ \dfrac{\partial \Tr (\mathbf{X})}{\partial x_{ij}} = \begin{cases} 1 &, i=j \\ 0 &, i \neq j \end{cases} $$
そのため、以下の結果を得る。
$$ \dfrac{\partial \Tr (\mathbf{X})}{\partial \mathbf{X}} = \begin{bmatrix} \dfrac{\partial \Tr (\mathbf{X})}{\partial x_{11}} & \cdots & \dfrac{\partial \Tr (\mathbf{X})}{\partial x_{1n}} \\ \vdots & \ddots & \vdots \\ \dfrac{\partial \Tr (\mathbf{X})}{\partial x_{n1}} & \cdots & \dfrac{\partial \Tr (\mathbf{X})}{\partial x_{nn}} \end{bmatrix} = \begin{bmatrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1 \end{bmatrix} = I $$
■
$(2)$
$\mathbf{A} \in \mathbb{R}^{n \times p}$、$\mathbf{X} \in \mathbb{R}^{p \times n}$としよう。 まずトレースは循環性質を持つため、$\Tr (\mathbf{A}\mathbf{X}) = \Tr(\mathbf{X}\mathbf{A})$である。
$$ \Tr(AB) = \Tr(BA) $$
行列$\mathbf{A} \mathbf{X}$の$ij$成分は$\sum\limits_{k=1}^{p} a_{ik} x_{kj}$であるため、$\Tr (\mathbf{A} \mathbf{X}) = \sum\limits_{i=1}^{n}\sum\limits_{k=1}^{p} a_{ik} x_{ki}$である。したがって$\dfrac{\partial \Tr (\mathbf{A}\mathbf{X})}{\partial x_{ij}} = a_{ji}$であり、次が成り立つ。
$$ \begin{align*} \dfrac{\partial \Tr (\mathbf{A}\mathbf{X})}{\partial \mathbf{X}} &=\begin{bmatrix} \dfrac{\partial \Tr (\mathbf{A} \mathbf{X})}{\partial x_{11}} & \cdots & \dfrac{\partial \Tr (\mathbf{A} \mathbf{X})}{\partial x_{1n}} \\ \vdots & \ddots & \vdots \\ \dfrac{\partial \Tr (\mathbf{A} \mathbf{X})}{\partial x_{p1}} & \cdots & \dfrac{\partial \Tr (\mathbf{A} \mathbf{X})}{\partial x_{pn}} \end{bmatrix} \\ &= \begin{bmatrix} a_{11} & a_{21} & \cdots & a_{n1} \\ a_{12} & a_{22} & \cdots & a_{n2} \\ \vdots & \vdots & \ddots & \vdots \\ a_{1p} & a_{2p} & \cdots & a_{np} \end{bmatrix} \\ &= \mathbf{A}^{\mathsf{T}} \end{align*} $$
この結果とトレースの循環性質を利用すれば、$(3)$をすぐに得ることができる。
■
$(4)$
行列の累乗形式の公式により、$\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{X}$の$ij$成分とトレース、偏微分は次の通りである。
$$ [\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{X}]_{ij} = \sum\limits_{k=1}^{n}\sum\limits_{\ell=1}^{m} a_{ik} x_{\ell k}x_{\ell j}, \quad \Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{X}) = \sum\limits_{s=1}^{n}\sum\limits_{k=1}^{n}\sum\limits_{\ell=1}^{m} a_{sk} x_{\ell k}x_{\ell s} $$
$$ \begin{align*} \dfrac{\partial \Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{X})}{\partial x_{ij}} &= \sum\limits_{k=1}^{n}a_{jk}x_{ik} + \sum\limits_{s=1}^{n}a_{sj}x_{is} \\ &= \sum\limits_{k=1}^{n}x_{ik}a_{jk} + \sum\limits_{k=1}^{n}x_{ik}a_{kj} &= [\mathbf{X}\mathbf{A}^{\mathsf{T}}]_{ij} + [\mathbf{X}\mathbf{A}]_{ij} \end{align*} $$
したがって、
$$ \dfrac{\partial \Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{X})}{\partial \mathbf{X}} = \mathbf{X}\mathbf{A}^{\mathsf{T}} + \mathbf{X}\mathbf{A} = \mathbf{X}(\mathbf{A}^{\mathsf{T}} + \mathbf{A}) $$
$(5)$
$[\mathbf{A} \mathbf{X} \mathbf{X}]_{ij} = \sum\limits_{k, s=1}^{n} a_{ik}x_{ks}x_{sj}$であるため、
$$ \Tr (\mathbf{A}\mathbf{X} \mathbf{X}) = \sum\limits_{\ell= 1}^{n} \sum\limits_{k, s=1}^{n} a_{\ell k}x_{ks}x_{s\ell} $$
したがって偏微分は以下の通りである。
$$ \dfrac{\partial \Tr (\mathbf{A}\mathbf{X} \mathbf{X})}{\partial x_{ij}} = \sum\limits_{\ell=1}^{n} a_{\ell i}x_{j\ell} + \sum\limits_{k=1}^{n} a_{jk}x_{ki} $$
よって次が得られる。
$$ \left[ \dfrac{\partial \Tr (\mathbf{A}\mathbf{X} \mathbf{X})}{\partial \mathbf{X}} \right]_{ij} = \sum\limits_{\ell=1}^{n} a_{\ell i}x_{j\ell} + \sum\limits_{k=1}^{n} a_{jk}x_{ki} = [\mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}]_{ij} + [\mathbf{X}^{\mathsf{T}}\mathbf{A}^{\mathsf{T}}] $$
$$ \implies \dfrac{\partial \Tr (\mathbf{A}\mathbf{X} \mathbf{X})}{\partial \mathbf{X}} = \mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}} + \mathbf{X}^{\mathsf{T}}\mathbf{A}^{\mathsf{T}} $$
■
$(6)$
上記の証明過程を無理なく追ってきたという仮定のもと、簡略に記述する。
$$ \left[ \mathbf{A} \mathbf{X}^{\mathsf{T}} \mathbf{B} \mathbf{X} \right]_{ij} = \sum_{k,s,\ell = 1}^{n} a_{ik} x_{sk} b_{s\ell} x_{\ell j} $$
$$ \implies \Tr (\mathbf{A} \mathbf{X}^{\mathsf{T}} \mathbf{B} \mathbf{X}) = \sum\limits_{r=1}^{n}\sum_{k,s,\ell = 1}^{n} a_{rk} x_{sk} b_{s\ell} x_{\ell r} $$
$$ \begin{align*} \implies \left[ \nabla_{\mathbf{X}} \Tr (\mathbf{A} \mathbf{X}^{\mathsf{T}} \mathbf{B} \mathbf{X}) \right]_{ij} &= \sum_{r,\ell} a_{rj}b_{i\ell}x_{\ell r} + \sum_{k,s} a_{jk}x_{sk}b_{si} \\ &= \sum_{r,\ell} b_{i\ell}x_{\ell r}a_{rj} + \sum_{k,s} b_{si}x_{sk}a_{jk} \\ &= [\mathbf{B} \mathbf{X} \mathbf{A}]_{ij} + [\mathbf{B}^{\mathsf{T}} \mathbf{X} \mathbf{A}^{\mathsf{T}}]_{ij} \end{align*} $$
$$ \implies \nabla_{\mathbf{X}} \Tr (\mathbf{A} \mathbf{X}^{\mathsf{T}} \mathbf{B} \mathbf{X}) = \mathbf{B} \mathbf{X} \mathbf{A} + \mathbf{B}^{\mathsf{T}} \mathbf{X} \mathbf{A}^{\mathsf{T}} $$
■
$(7)$
$$ [\mathbf{X}^{n}]_{ij} = \sum\limits_{k_{(2)}, \dots, k_{(n)}=1}^{n} x_{ik_{(2)}} x_{k_{(2)}k_{(3)}} \cdots x_{k_{(n)}j} $$
$$ \implies \Tr(\mathbf{X}^{n}) = \sum\limits_{\ell=1}^{n} \sum\limits_{k_{(2)}, \dots, k_{(n)}=1}^{n} x_{\ell k_{(2)}} x_{k_{(2)}k_{(3)}} \cdots x_{k_{(n)}\ell} $$
$$ \implies [\nabla_{\mathbf{X}} \Tr(\mathbf{X}^{n})]_{ij} = n \sum\limits_{k_{(3)}, \dots, k_{(n)}=1}^{n} x_{j k_{(3)}} x_{k_{(3)}k_{(4)}} \cdots x_{k_{(n)}i} = n[(\mathbf{X}^{n-1})^{\mathsf{T}}]_{ij} $$
$$ \implies \nabla_{\mathbf{X}} \Tr(\mathbf{X}^{n}) = n(\mathbf{X}^{n-1})^{\mathsf{T}} $$
■