logo

スカラー関数の行列微分表 📂多変数ベクトル解析

スカラー関数の行列微分表

説明

行列微分に関する公式を以下の表にまとめた。文書全体で使用される表記法は次の通り。

  • $\mathbf{a}, \mathbf{b} \in \mathbb{R}^{n}$: $\mathbf{x}$や$\mathbf{X}$に依存しない定数ベクトル
  • $\mathbf{A}, \mathbf{B}, \mathbf{C} \in \mathbb{R}^{n \times n}$: $\mathbf{x}$や$\mathbf{X}$に依存しない定数行列
  • $\mathbf{x} \in \mathbb{R}^{n}$: 変数ベクトル
  • $\mathbf{X} \in \mathbb{R}^{n \times n}$: 変数行列

微分規則で興味深いのは、$\Tr (\mathbf{X}) = \Tr (\mathbf{X}^{\mathsf{T}})$よって$\nabla_{\mathbf{X}} \Tr (\mathbf{X}) = I = \nabla_{\mathbf{X}} \Tr (\mathbf{X}^{\mathsf{T}})$が成立するが、前後に異なる行列が掛けられると転置の性質により、$\mathbf{X}$が含まれた式と$\mathbf{X}^{\mathsf{T}}$が含まれた式の微分結果が変わるということだ。

式 $f(\mathbf{X})$微分 $\nabla_{\mathbf{X}} f$証明
$\Tr (\mathbf{X})$, $\Tr (\mathbf{X}^{\mathsf{T}})$$I$リンク
$\Tr (a\mathbf{X})$, $\Tr (a\mathbf{X}^{\mathsf{T}})$$aI$リンク
$\Tr (\mathbf{A}\mathbf{X})$, $\Tr (\mathbf{X}\mathbf{A})$$\mathbf{A}^{\mathsf{T}}$リンク
$\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}})$, $\Tr (\mathbf{X}\mathbf{A}^{\mathsf{T}})$$\mathbf{A}$リンク
$\Tr (\mathbf{A}\mathbf{X}\mathbf{B}), \Tr (\mathbf{B}\mathbf{A}\mathbf{X}), \Tr (\mathbf{X}\mathbf{B}\mathbf{A})$$\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}$リンク
$\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B}), \Tr (\mathbf{B}\mathbf{A}\mathbf{X}^{\mathsf{T}}), \Tr (\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{A})$$\mathbf{B}\mathbf{A}$リンク
$\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{X})$$\mathbf{X}(\mathbf{A} + \mathbf{A}^{\mathsf{T}})$リンク
$\Tr (\mathbf{A}\mathbf{X}\mathbf{X})$$\mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}} + \mathbf{X}^{\mathsf{T}}\mathbf{A}^{\mathsf{T}}$リンク
$\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{B})$$\mathbf{X}(\mathbf{B}\mathbf{A} + \mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}})$リンク
$\Tr (\mathbf{A}\mathbf{X}\mathbf{X}\mathbf{B})$$\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}} + \mathbf{X}^{\mathsf{T}}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}$リンク
$\Tr (\mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{X})$$\mathbf{B}\mathbf{X}\mathbf{A}^{\mathsf{T}} + \mathbf{B}^{\mathsf{T}}\mathbf{X}\mathbf{A}$リンク
$\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B})$$\mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A} + \mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}$リンク
$\Tr (\mathbf{A}\mathbf{X}\mathbf{C}\mathbf{X}\mathbf{B})$$\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}^{\mathsf{T}} + \mathbf{C}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}$リンク
$\Tr (\mathbf{X}^{n})$$n(\mathbf{X}^{\mathsf{T}})^{n-1}$リンク
$\Tr (\mathbf{A}\mathbf{X}^{n})$$\sum\limits_{i=0}^{n-1} \left[ \mathbf{X}^{n-1-i}\mathbf{A}\mathbf{X}^{i} \right]^{\mathsf{T}}$リンク
$\Tr (p(\mathbf{X}))$ *${}^{\tiny \text{아래정의참고}}$$(p^{\prime}(\mathbf{X}))^{\mathsf{T}}$リンク
  • $p(x)$を任意の多項式と言う。$p^{\prime}(x)$を$p$の導関数とする。$p(\mathbf{X})$と$p^{\prime}(\mathbf{X})$は$p$と$p^{\prime}$に対応する行列多項式だ。 $$ \begin{align*} p(x) &= \sum\limits_{i=0}^{m} a_{i}x^{i} \\ p^{\prime}(x) &= \sum\limits_{i=1}^{m} i a_{i}x^{i-1} \end{align*} \implies \begin{align*} p(\mathbf{X}) &= \sum\limits_{i=0}^{m} a_{i}\mathbf{X}^{i} \\ p^{\prime}(\mathbf{X}) &= \sum\limits_{i=1}^{m} i a_{i}\mathbf{X}^{i-1} \end{align*} $$
式 $f(\mathbf{X})$結果 $\nabla_{\mathbf{X}} f$証明
$\mathbf{a}^{\mathsf{T}}\mathbf{X}\mathbf{b}$$\mathbf{a}\mathbf{b}^{\mathsf{T}}$リンク
$\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{b}$$\mathbf{X}(\mathbf{a}\mathbf{b}^{\mathsf{T}} + \mathbf{b}\mathbf{a}^{\mathsf{T}})$リンク
$\mathbf{a}^{\mathsf{T}}\mathbf{X}\mathbf{X}\mathbf{b}$$\mathbf{a}\mathbf{b}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}} + \mathbf{X}^{\mathsf{T}}\mathbf{a}\mathbf{b}^{\mathsf{T}}$リンク
$\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}$$\mathbf{C}\mathbf{X}\mathbf{b}\mathbf{a}^{\mathsf{T}} + \mathbf{X}\mathbf{C}^{\mathsf{T}}\mathbf{a}\mathbf{b}^{\mathsf{T}}$リンク

証明

証明にはトレースのトリックが使われる。これを知らない場合は証明についていけないので、まずそれを読んで計算方法を理解してから証明を見ること。

行列微分素の性質

変数である行列 $\mathbf{X}, \mathbf{Y} \in \mathbb{R}^{n \times n}$とスカラー $\alpha \in \mathbb{R}$、定数行列 $\mathbf{A} \in \mathbb{R}^{n \times n}$に関して次が成立する。

  1. $\mathrm{d}(\alpha \mathbf{X}) = \alpha \mathrm{d}\mathbf{X}$
  2. $\mathrm{d}(\mathbf{X}^{\mathsf{T}}) = (\mathrm{d}\mathbf{X})^{\mathsf{T}}$
  3. $\mathrm{d}(\mathbf{A}\mathbf{X}) = \mathbf{A} \mathrm{d}\mathbf{X}$ および $\mathrm{d}(\mathbf{X}\mathbf{A}) = (\mathrm{d}\mathbf{X}) \mathbf{A}$
  4. $\mathrm{d}(\mathbf{X} + \mathbf{Y}) = \mathrm{d}\mathbf{X} + \mathrm{d}\mathbf{Y}$
  5. $\mathrm{d}(\mathbf{X}\mathbf{Y}) = (\mathrm{d}\mathbf{X})\mathbf{Y} + \mathbf{X} \mathrm{d}\mathbf{Y}$

トレースの性質

  1. $\Tr (\alpha \mathbf{X}) = \alpha \Tr (\mathbf{X})$
  2. 線形性: $\Tr (\mathbf{X} + \mathbf{Y}) = \Tr (\mathbf{X}) + \Tr (\mathbf{Y})$
  3. 循環性: $\Tr (\mathbf{X}\mathbf{Y}\mathbf{Z}) = \Tr (\mathbf{Y}\mathbf{Z}\mathbf{X}) = \Tr (\mathbf{Z}\mathbf{X}\mathbf{Y})$
  4. 転置不変性: $\Tr (\mathbf{X}^{\mathsf{T}}) = \Tr (\mathbf{X})$

$f(\mathbf{X}) = \Tr (a\mathbf{X})$

$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (a\mathbf{X}) \\ &= \Tr \mathrm{d}(a\mathbf{X}) \\ &= \Tr (a\mathrm{d}\mathbf{X}) \\ &= \Tr (aI\mathrm{d}\mathbf{X}) \\ &= \Tr ((aI)^{\mathsf{T}}\mathrm{d}\mathbf{X}) \end{align*} $$

$$ \implies \nabla_{\mathbf{X}} (\Tr (a\mathbf{X})) = aI $$

$a = 1$であるとき、

$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{X})) = I $$

また、$\Tr (a\mathbf{X}^{\mathsf{T}}) = \Tr (a\mathbf{X})$なので、

$$ \nabla_{\mathbf{X}} (\Tr (a\mathbf{X}^{\mathsf{T}})) = aI $$

$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{X}^{\mathsf{T}})) = I $$

$f(\mathbf{X}) = \Tr (\mathbf{A}\mathbf{X})$

$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{A}\mathbf{X}) \\ &= \Tr \mathrm{d}(\mathbf{A}\mathbf{X}) \\ &= \Tr (\mathbf{A} \mathrm{d}\mathbf{X}) \\ &= \Tr (\mathbf{A}^{\mathsf{T}}\mathrm{d}\mathbf{X}) \end{align*} $$

$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X})) = \mathbf{A}^{\mathsf{T}} $$

$f(\mathbf{X}) = \Tr (\mathbf{A}\mathbf{X}\mathbf{B})$

$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{A}\mathbf{X}\mathbf{B}) \\ &= \Tr \mathrm{d}(\mathbf{A}\mathbf{X}\mathbf{B}) \\ &= \Tr (\mathbf{A} (\mathrm{d}\mathbf{X})\mathbf{B}) \\ &= \Tr (\mathbf{B}\mathbf{A} (\mathrm{d}\mathbf{X})) \\ &= \Tr ((\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X}) \end{align*} $$

$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}\mathbf{B})) = \mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}} $$

または、$\Tr (\mathbf{A}\mathbf{X}\mathbf{B}) = \Tr (\mathbf{B}\mathbf{A}\mathbf{X})$であり$\nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X})) = \mathbf{A}^{\mathsf{T}}$なので、

$$ \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}\mathbf{B})) = \mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}} $$

$f(\mathbf{X}) = \Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B})$

$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B}) \\ &= \Tr \mathrm{d}(\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B}) \\ &= \Tr (\mathbf{A} (\mathrm{d}\mathbf{X})^{\mathsf{T}}\mathbf{B}) \\ &= \Tr ((\mathrm{d}\mathbf{X})^{\mathsf{T}}\mathbf{B}\mathbf{A}) \\ &= \Tr ((\mathbf{B}\mathbf{A})^{\mathsf{T}}\mathrm{d}\mathbf{X}) \end{align*} $$

$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B})) = \mathbf{B}\mathbf{A} $$

または、$\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B}) = \Tr (\mathbf{B}^{\mathsf{T}}\mathbf{X}\mathbf{A}^{\mathsf{T}})=\Tr (\mathbf{A}^{\mathsf{T}} \mathbf{B}^{\mathsf{T}} \mathbf{X})$であり$\nabla_{\mathbf{X}} \Tr (\mathbf{A}\mathbf{X}) = \mathbf{A}^{\mathsf{T}}$なので、

$$ \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B})) = \mathbf{B}\mathbf{A} $$

もし$\mathbf{B} = I$であるなら、

$$ \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}})) = \mathbf{A} $$

$f(\mathbf{X}) = \Tr (\mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{X})$

$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{X}) \\ &= \Tr \mathrm{d}(\mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{X}) \\ &= \Tr (\mathbf{A}^{\mathsf{T}} (\mathrm{d}\mathbf{X})^{\mathsf{T}}\mathbf{B}\mathbf{X} + \mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B}(\mathrm{d}\mathbf{X})) \\ &= \Tr ((\mathrm{d}\mathbf{X})^{\mathsf{T}} \mathbf{B}\mathbf{X}\mathbf{A}^{\mathsf{T}} + \mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B} \mathrm{d}\mathbf{X}) \\ &= \Tr ((\mathbf{B}\mathbf{X}\mathbf{A}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X} + (\mathbf{B}^{\mathsf{T}}\mathbf{X}\mathbf{A})^{\mathsf{T}}\mathrm{d}\mathbf{X}) \\ &= \Tr ((\mathbf{B}\mathbf{X}\mathbf{A}^{\mathsf{T}} + \mathbf{B}^{\mathsf{T}}\mathbf{X}\mathbf{A})^{\mathsf{T}}\mathrm{d}\mathbf{X}) \\ \end{align*} $$

$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{X})) = \mathbf{B}\mathbf{X}\mathbf{A}^{\mathsf{T}} + \mathbf{B}^{\mathsf{T}}\mathbf{X}\mathbf{A} $$

$f(\mathbf{X}) = \Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B})$

$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B}) \\ &= \Tr \mathrm{d}(\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B}) \\ &= \Tr (\mathbf{A} (\mathrm{d}\mathbf{X})^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B} + \mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}(\mathrm{d}\mathbf{X})\mathbf{B}) \\ &= \Tr ((\mathrm{d}\mathbf{X})^{\mathsf{T}} \mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A} + \mathbf{B}\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C} \mathrm{d}\mathbf{X}) \\ &= \Tr ((\mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A})^{\mathsf{T}}\mathrm{d}\mathbf{X} + (\mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X}) \\ &= \Tr ((\mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A} + \mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X}) \\ \end{align*} $$

$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B})) = \mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A} + \mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}} $$

または、$\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B}) = \Tr (\mathbf{B}\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X})$であり$\nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{X})) = \mathbf{B}\mathbf{X}\mathbf{A} + \mathbf{B}^{\mathsf{T}}\mathbf{X}\mathbf{A}^{\mathsf{T}}$なので、

$$ \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B})) = \mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A} + \mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}} $$

もし$\mathbf{C} = I$であるなら、

$$ \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{B})) = \mathbf{X}\mathbf{B}\mathbf{A} + \mathbf{X}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}} = \mathbf{X}(\mathbf{B}\mathbf{A} + \mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}) $$

もし$\mathbf{B} = \mathbf{C} = I$であるなら、

$$ \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{X})) = \mathbf{X}\mathbf{A} + \mathbf{X}\mathbf{A}^{\mathsf{T}} = \mathbf{X}(\mathbf{A} + \mathbf{A}^{\mathsf{T}}) $$

$f(\mathbf{X}) = \Tr (\mathbf{A}\mathbf{X}\mathbf{C}\mathbf{X}\mathbf{B})$

$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{A}\mathbf{X}\mathbf{C}\mathbf{X}\mathbf{B}) \\ &= \Tr \mathrm{d} (\mathbf{A}\mathbf{X}\mathbf{C}\mathbf{X}\mathbf{B}) \\ &= \Tr (\mathbf{A}(\mathrm{d}\mathbf{X})\mathbf{C}\mathbf{X}\mathbf{B} + \mathbf{A}\mathbf{X}\mathbf{C}(\mathrm{d}\mathbf{X})\mathbf{B}) \\ &= \Tr (\mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A}\mathrm{d}\mathbf{X} + \mathbf{B}\mathbf{A}\mathbf{X}\mathbf{C}\mathrm{d}\mathbf{X}) \\ &= \Tr ((\mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A} + \mathbf{B}\mathbf{A}\mathbf{X}\mathbf{C})\mathrm{d}\mathbf{X}) \\ &= \Tr ((\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}^{\mathsf{T}} + \mathbf{C}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X}) \\ \end{align*} $$

$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}\mathbf{C}\mathbf{X}\mathbf{B})) = (\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}^{\mathsf{T}} + \mathbf{C}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}) $$

もし$\mathbf{C} = I$であるなら、

$$ \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}\mathbf{X}\mathbf{B})) = \mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}} + \mathbf{X}^{\mathsf{T}}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}} $$

$f(\mathbf{X}) = \Tr (\mathbf{X}^{n})$

$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{X}^{n}) \\ &= \Tr \mathrm{d}(\mathbf{X}^{n}) \\ &= \Tr \left( (\mathrm{d}\mathbf{X}) X^{n-1} + \mathbf{X} (\mathrm{d}\mathbf{X}) X^{n-2} + \cdots + \mathbf{X}^{n-2}(\mathrm{d}\mathbf{X})\mathbf{X} + \mathbf{X}^{n-1}\mathrm{d}\mathbf{X} \right) \\ &= \Tr \left( \overbrace{\mathbf{X}^{n-1} \mathrm{d}\mathbf{X} + \cdots + \mathbf{X}^{n-1} \mathrm{d}\mathbf{X}}^{n} \right) \\ &= \Tr \left( n\mathbf{X}^{n-1} \mathrm{d}\mathbf{X} \right) \\ &= \Tr \left( ((n\mathbf{X}^{n-1})^{\mathsf{T}})^{\mathsf{T}} \mathrm{d}\mathbf{X} \right) \\ \end{align*} $$

$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{X}^{n})) = n(\mathbf{X}^{\mathsf{T}})^{n-1} $$

$f(\mathbf{X}) = \Tr (\mathbf{A}\mathbf{X}^{n})$

$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{A}\mathbf{X}^{n}) \\ &= \Tr \mathrm{d}(\mathbf{A}\mathbf{X}^{n}) \\ &= \Tr \left[ \mathbf{A}(\mathrm{d}\mathbf{X})\mathbf{X}^{n-1} + \mathbf{A}\mathbf{X}(\mathrm{d}\mathbf{X})\mathbf{X}^{n-2} + \cdots \mathbf{A}\mathbf{X}^{n-2}(\mathrm{d}\mathbf{X})\mathbf{X} + \mathbf{A}\mathbf{X}^{n-1}(\mathrm{d}\mathbf{X}) \right] \\ &= \Tr \left[ \mathbf{X}^{n-1}\mathbf{A} \mathrm{d}\mathbf{X} + \mathbf{X}^{n-2}\mathbf{A}\mathbf{X} \mathrm{d}\mathbf{X} + \cdots + \mathbf{X}\mathbf{A}\mathbf{X}^{n-2}\mathrm{d}\mathbf{X} + \mathbf{A}\mathbf{X}^{n-1}\mathrm{d}\mathbf{X} \right] \\ &= \Tr \left( \left[ \sum\limits_{i=0}^{n-1} \mathbf{X}^{n-1-i}\mathbf{A}\mathbf{X}^{i} \right]\mathrm{d}\mathbf{X} \right) \\ &= \Tr \left( \left( \left[ \sum\limits_{i=0}^{n-1} \mathbf{X}^{n-1-i}\mathbf{A}\mathbf{X}^{i} \right]^{\mathsf{T}} \right)^{\mathsf{T}} \mathrm{d}\mathbf{X} \right) \\ &= \Tr \left( \left( \sum\limits_{i=0}^{n-1} \left[ \mathbf{X}^{n-1-i}\mathbf{A}\mathbf{X}^{i} \right]^{\mathsf{T}} \right)^{\mathsf{T}} \mathrm{d}\mathbf{X} \right) \\ \end{align*} $$

$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{n})) = \sum\limits_{i=0}^{n-1} \left[ \mathbf{X}^{n-1-i}\mathbf{A}\mathbf{X}^{i} \right]^{\mathsf{T}} $$

$f(\mathbf{X}) = \Tr (a_{m}\mathbf{X}^{m} + \dots + a_{1}\mathbf{X} + a_{0})$

$\nabla_{\mathbf{X}} (\Tr (\mathbf{X}^{n})) = n(\mathbf{X}^{\mathsf{T}})^{n-1}$であり、トレースと微分 $\nabla_{X}$が線形であるため、

$$ \begin{align*} \nabla_{\mathbf{X}} \Tr (a_{m}\mathbf{X}^{m} + \dots + a_{1}\mathbf{X} + a_{0}) &= ma_{m}(\mathbf{X}^{\mathsf{T}})^{m-1} + 2a_{2}\mathbf{X}^{\mathsf{T}} + a_{1} \\ &= \sum\limits_{i=1}^{m} i a_{i}(\mathbf{X}^{\mathsf{T}})^{i-1} \end{align*} $$

$f(\mathbf{X}) = \mathbf{a}^{\mathsf{T}}\mathbf{X}\mathbf{X}\mathbf{b}$

トレースの定義と性質に従い、次が成立する。

$$ \nabla_{\mathbf{X}} ( \mathbf{a}^{\mathsf{T}}\mathbf{X}\mathbf{X}\mathbf{b} ) = \nabla_{\mathbf{X}} \Tr( \mathbf{a}^{\mathsf{T}}\mathbf{X}\mathbf{X}\mathbf{b} ) = \nabla_{\mathbf{X}} \Tr( \mathbf{b}\mathbf{a}^{\mathsf{T}}\mathbf{X}\mathbf{X} ) $$

$\nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}\mathbf{X})) = \mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}} + \mathbf{X}^{\mathsf{T}}\mathbf{a}^{\mathsf{T}}$なので、

$$ \nabla_{\mathbf{X}} (\mathbf{a}^{\mathsf{T}}\mathbf{X}\mathbf{X}\mathbf{b}) = \mathbf{a}\mathbf{b}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}} + \mathbf{X}^{\mathsf{T}}\mathbf{a}\mathbf{b}^{\mathsf{T}} $$

$f(\mathbf{X}) = \mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}$

$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}) \\ &= \mathrm{d} \Tr (\mathbf{b}\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}) \\ &= \Tr \mathrm{d}(\mathbf{b}\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}) \\ &= \Tr \left( \mathbf{b}\mathbf{a}^{\mathsf{T}}(\mathrm{d}\mathbf{X})^{\mathsf{T}}\mathbf{C}\mathbf{X} + \mathbf{b}\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathrm{d}\mathbf{X} \right) \\ &= \Tr \left( (\mathrm{d}\mathbf{X})^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}\mathbf{a}^{\mathsf{T}} + (\mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{a}\mathbf{b}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X} \right) \\ &= \Tr \left( (\mathbf{C}\mathbf{X}\mathbf{b}\mathbf{a}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X} + (\mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{a}\mathbf{b}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X} \right) \\ &= \Tr \left( \left[ \mathbf{C}\mathbf{X}\mathbf{b}\mathbf{a}^{\mathsf{T}} + \mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{a}\mathbf{b}^{\mathsf{T}} \right]^{\mathsf{T}}\mathrm{d}\mathbf{X} \right) \\ \end{align*} $$

$$ \implies \nabla_{\mathbf{X}} (\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}) = \mathbf{C}\mathbf{X}\mathbf{b}\mathbf{a}^{\mathsf{T}} + \mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{a}\mathbf{b}^{\mathsf{T}} $$

または、$\nabla_{\mathbf{X}} (\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}) = \nabla_{\mathbf{X}} \Tr (\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}) = \nabla_{\mathbf{X}} \Tr (\mathbf{b}\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X})$で、

$\nabla_{\mathbf{X}} (\Tr (\mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{X})) = \mathbf{B}\mathbf{X}\mathbf{A}^{\mathsf{T}} + \mathbf{B}^{\mathsf{T}}\mathbf{X}\mathbf{A}$なので次が成立する。

$$ \nabla_{\mathbf{X}} (\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}) = \mathbf{C}\mathbf{X}\mathbf{b}\mathbf{a}^{\mathsf{T}} + \mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{a}\mathbf{b}^{\mathsf{T}} $$