スカラー関数の行列微分表
説明
行列微分に関する公式を以下の表にまとめた。文書全体で使用される表記法は次の通り。
- $\mathbf{a}, \mathbf{b} \in \mathbb{R}^{n}$: $\mathbf{x}$や$\mathbf{X}$に依存しない定数ベクトル
- $\mathbf{A}, \mathbf{B}, \mathbf{C} \in \mathbb{R}^{n \times n}$: $\mathbf{x}$や$\mathbf{X}$に依存しない定数行列
- $\mathbf{x} \in \mathbb{R}^{n}$: 変数ベクトル
- $\mathbf{X} \in \mathbb{R}^{n \times n}$: 変数行列
微分規則で興味深いのは、$\Tr (\mathbf{X}) = \Tr (\mathbf{X}^{\mathsf{T}})$よって$\nabla_{\mathbf{X}} \Tr (\mathbf{X}) = I = \nabla_{\mathbf{X}} \Tr (\mathbf{X}^{\mathsf{T}})$が成立するが、前後に異なる行列が掛けられると転置の性質により、$\mathbf{X}$が含まれた式と$\mathbf{X}^{\mathsf{T}}$が含まれた式の微分結果が変わるということだ。
式 $f(\mathbf{X})$ | 微分 $\nabla_{\mathbf{X}} f$ | 証明 |
---|---|---|
$\Tr (\mathbf{X})$, $\Tr (\mathbf{X}^{\mathsf{T}})$ | $I$ | リンク |
$\Tr (a\mathbf{X})$, $\Tr (a\mathbf{X}^{\mathsf{T}})$ | $aI$ | リンク |
$\Tr (\mathbf{A}\mathbf{X})$, $\Tr (\mathbf{X}\mathbf{A})$ | $\mathbf{A}^{\mathsf{T}}$ | リンク |
$\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}})$, $\Tr (\mathbf{X}\mathbf{A}^{\mathsf{T}})$ | $\mathbf{A}$ | リンク |
$\Tr (\mathbf{A}\mathbf{X}\mathbf{B}), \Tr (\mathbf{B}\mathbf{A}\mathbf{X}), \Tr (\mathbf{X}\mathbf{B}\mathbf{A})$ | $\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}$ | リンク |
$\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B}), \Tr (\mathbf{B}\mathbf{A}\mathbf{X}^{\mathsf{T}}), \Tr (\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{A})$ | $\mathbf{B}\mathbf{A}$ | リンク |
$\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{X})$ | $\mathbf{X}(\mathbf{A} + \mathbf{A}^{\mathsf{T}})$ | リンク |
$\Tr (\mathbf{A}\mathbf{X}\mathbf{X})$ | $\mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}} + \mathbf{X}^{\mathsf{T}}\mathbf{A}^{\mathsf{T}}$ | リンク |
$\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{B})$ | $\mathbf{X}(\mathbf{B}\mathbf{A} + \mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}})$ | リンク |
$\Tr (\mathbf{A}\mathbf{X}\mathbf{X}\mathbf{B})$ | $\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}} + \mathbf{X}^{\mathsf{T}}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}$ | リンク |
$\Tr (\mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{X})$ | $\mathbf{B}\mathbf{X}\mathbf{A}^{\mathsf{T}} + \mathbf{B}^{\mathsf{T}}\mathbf{X}\mathbf{A}$ | リンク |
$\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B})$ | $\mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A} + \mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}$ | リンク |
$\Tr (\mathbf{A}\mathbf{X}\mathbf{C}\mathbf{X}\mathbf{B})$ | $\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}^{\mathsf{T}} + \mathbf{C}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}$ | リンク |
$\Tr (\mathbf{X}^{n})$ | $n(\mathbf{X}^{\mathsf{T}})^{n-1}$ | リンク |
$\Tr (\mathbf{A}\mathbf{X}^{n})$ | $\sum\limits_{i=0}^{n-1} \left[ \mathbf{X}^{n-1-i}\mathbf{A}\mathbf{X}^{i} \right]^{\mathsf{T}}$ | リンク |
$\Tr (p(\mathbf{X}))$ *${}^{\tiny \text{아래정의참고}}$ | $(p^{\prime}(\mathbf{X}))^{\mathsf{T}}$ | リンク |
- $p(x)$を任意の多項式と言う。$p^{\prime}(x)$を$p$の導関数とする。$p(\mathbf{X})$と$p^{\prime}(\mathbf{X})$は$p$と$p^{\prime}$に対応する行列多項式だ。 $$ \begin{align*} p(x) &= \sum\limits_{i=0}^{m} a_{i}x^{i} \\ p^{\prime}(x) &= \sum\limits_{i=1}^{m} i a_{i}x^{i-1} \end{align*} \implies \begin{align*} p(\mathbf{X}) &= \sum\limits_{i=0}^{m} a_{i}\mathbf{X}^{i} \\ p^{\prime}(\mathbf{X}) &= \sum\limits_{i=1}^{m} i a_{i}\mathbf{X}^{i-1} \end{align*} $$
式 $f(\mathbf{X})$ | 結果 $\nabla_{\mathbf{X}} f$ | 証明 |
---|---|---|
$\mathbf{a}^{\mathsf{T}}\mathbf{X}\mathbf{b}$ | $\mathbf{a}\mathbf{b}^{\mathsf{T}}$ | リンク |
$\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{b}$ | $\mathbf{X}(\mathbf{a}\mathbf{b}^{\mathsf{T}} + \mathbf{b}\mathbf{a}^{\mathsf{T}})$ | リンク |
$\mathbf{a}^{\mathsf{T}}\mathbf{X}\mathbf{X}\mathbf{b}$ | $\mathbf{a}\mathbf{b}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}} + \mathbf{X}^{\mathsf{T}}\mathbf{a}\mathbf{b}^{\mathsf{T}}$ | リンク |
$\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}$ | $\mathbf{C}\mathbf{X}\mathbf{b}\mathbf{a}^{\mathsf{T}} + \mathbf{X}\mathbf{C}^{\mathsf{T}}\mathbf{a}\mathbf{b}^{\mathsf{T}}$ | リンク |
証明
証明にはトレースのトリックが使われる。これを知らない場合は証明についていけないので、まずそれを読んで計算方法を理解してから証明を見ること。
変数である行列 $\mathbf{X}, \mathbf{Y} \in \mathbb{R}^{n \times n}$とスカラー $\alpha \in \mathbb{R}$、定数行列 $\mathbf{A} \in \mathbb{R}^{n \times n}$に関して次が成立する。
- $\mathrm{d}(\alpha \mathbf{X}) = \alpha \mathrm{d}\mathbf{X}$
- $\mathrm{d}(\mathbf{X}^{\mathsf{T}}) = (\mathrm{d}\mathbf{X})^{\mathsf{T}}$
- $\mathrm{d}(\mathbf{A}\mathbf{X}) = \mathbf{A} \mathrm{d}\mathbf{X}$ および $\mathrm{d}(\mathbf{X}\mathbf{A}) = (\mathrm{d}\mathbf{X}) \mathbf{A}$
- $\mathrm{d}(\mathbf{X} + \mathbf{Y}) = \mathrm{d}\mathbf{X} + \mathrm{d}\mathbf{Y}$
- $\mathrm{d}(\mathbf{X}\mathbf{Y}) = (\mathrm{d}\mathbf{X})\mathbf{Y} + \mathbf{X} \mathrm{d}\mathbf{Y}$
- $\Tr (\alpha \mathbf{X}) = \alpha \Tr (\mathbf{X})$
- 線形性: $\Tr (\mathbf{X} + \mathbf{Y}) = \Tr (\mathbf{X}) + \Tr (\mathbf{Y})$
- 循環性: $\Tr (\mathbf{X}\mathbf{Y}\mathbf{Z}) = \Tr (\mathbf{Y}\mathbf{Z}\mathbf{X}) = \Tr (\mathbf{Z}\mathbf{X}\mathbf{Y})$
- 転置不変性: $\Tr (\mathbf{X}^{\mathsf{T}}) = \Tr (\mathbf{X})$
$f(\mathbf{X}) = \Tr (a\mathbf{X})$
$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (a\mathbf{X}) \\ &= \Tr \mathrm{d}(a\mathbf{X}) \\ &= \Tr (a\mathrm{d}\mathbf{X}) \\ &= \Tr (aI\mathrm{d}\mathbf{X}) \\ &= \Tr ((aI)^{\mathsf{T}}\mathrm{d}\mathbf{X}) \end{align*} $$
$$ \implies \nabla_{\mathbf{X}} (\Tr (a\mathbf{X})) = aI $$
$a = 1$であるとき、
$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{X})) = I $$
また、$\Tr (a\mathbf{X}^{\mathsf{T}}) = \Tr (a\mathbf{X})$なので、
$$ \nabla_{\mathbf{X}} (\Tr (a\mathbf{X}^{\mathsf{T}})) = aI $$
$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{X}^{\mathsf{T}})) = I $$
■
$f(\mathbf{X}) = \Tr (\mathbf{A}\mathbf{X})$
$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{A}\mathbf{X}) \\ &= \Tr \mathrm{d}(\mathbf{A}\mathbf{X}) \\ &= \Tr (\mathbf{A} \mathrm{d}\mathbf{X}) \\ &= \Tr (\mathbf{A}^{\mathsf{T}}\mathrm{d}\mathbf{X}) \end{align*} $$
$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X})) = \mathbf{A}^{\mathsf{T}} $$
■
$f(\mathbf{X}) = \Tr (\mathbf{A}\mathbf{X}\mathbf{B})$
$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{A}\mathbf{X}\mathbf{B}) \\ &= \Tr \mathrm{d}(\mathbf{A}\mathbf{X}\mathbf{B}) \\ &= \Tr (\mathbf{A} (\mathrm{d}\mathbf{X})\mathbf{B}) \\ &= \Tr (\mathbf{B}\mathbf{A} (\mathrm{d}\mathbf{X})) \\ &= \Tr ((\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X}) \end{align*} $$
$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}\mathbf{B})) = \mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}} $$
または、$\Tr (\mathbf{A}\mathbf{X}\mathbf{B}) = \Tr (\mathbf{B}\mathbf{A}\mathbf{X})$であり$\nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X})) = \mathbf{A}^{\mathsf{T}}$なので、
$$ \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}\mathbf{B})) = \mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}} $$
■
$f(\mathbf{X}) = \Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B})$
$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B}) \\ &= \Tr \mathrm{d}(\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B}) \\ &= \Tr (\mathbf{A} (\mathrm{d}\mathbf{X})^{\mathsf{T}}\mathbf{B}) \\ &= \Tr ((\mathrm{d}\mathbf{X})^{\mathsf{T}}\mathbf{B}\mathbf{A}) \\ &= \Tr ((\mathbf{B}\mathbf{A})^{\mathsf{T}}\mathrm{d}\mathbf{X}) \end{align*} $$
$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B})) = \mathbf{B}\mathbf{A} $$
または、$\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B}) = \Tr (\mathbf{B}^{\mathsf{T}}\mathbf{X}\mathbf{A}^{\mathsf{T}})=\Tr (\mathbf{A}^{\mathsf{T}} \mathbf{B}^{\mathsf{T}} \mathbf{X})$であり$\nabla_{\mathbf{X}} \Tr (\mathbf{A}\mathbf{X}) = \mathbf{A}^{\mathsf{T}}$なので、
$$ \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B})) = \mathbf{B}\mathbf{A} $$
もし$\mathbf{B} = I$であるなら、
$$ \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}})) = \mathbf{A} $$
■
$f(\mathbf{X}) = \Tr (\mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{X})$
$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{X}) \\ &= \Tr \mathrm{d}(\mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{X}) \\ &= \Tr (\mathbf{A}^{\mathsf{T}} (\mathrm{d}\mathbf{X})^{\mathsf{T}}\mathbf{B}\mathbf{X} + \mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B}(\mathrm{d}\mathbf{X})) \\ &= \Tr ((\mathrm{d}\mathbf{X})^{\mathsf{T}} \mathbf{B}\mathbf{X}\mathbf{A}^{\mathsf{T}} + \mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B} \mathrm{d}\mathbf{X}) \\ &= \Tr ((\mathbf{B}\mathbf{X}\mathbf{A}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X} + (\mathbf{B}^{\mathsf{T}}\mathbf{X}\mathbf{A})^{\mathsf{T}}\mathrm{d}\mathbf{X}) \\ &= \Tr ((\mathbf{B}\mathbf{X}\mathbf{A}^{\mathsf{T}} + \mathbf{B}^{\mathsf{T}}\mathbf{X}\mathbf{A})^{\mathsf{T}}\mathrm{d}\mathbf{X}) \\ \end{align*} $$
$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{X})) = \mathbf{B}\mathbf{X}\mathbf{A}^{\mathsf{T}} + \mathbf{B}^{\mathsf{T}}\mathbf{X}\mathbf{A} $$
$f(\mathbf{X}) = \Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B})$
$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B}) \\ &= \Tr \mathrm{d}(\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B}) \\ &= \Tr (\mathbf{A} (\mathrm{d}\mathbf{X})^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B} + \mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}(\mathrm{d}\mathbf{X})\mathbf{B}) \\ &= \Tr ((\mathrm{d}\mathbf{X})^{\mathsf{T}} \mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A} + \mathbf{B}\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C} \mathrm{d}\mathbf{X}) \\ &= \Tr ((\mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A})^{\mathsf{T}}\mathrm{d}\mathbf{X} + (\mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X}) \\ &= \Tr ((\mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A} + \mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X}) \\ \end{align*} $$
$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B})) = \mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A} + \mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}} $$
または、$\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B}) = \Tr (\mathbf{B}\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X})$であり$\nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{X})) = \mathbf{B}\mathbf{X}\mathbf{A} + \mathbf{B}^{\mathsf{T}}\mathbf{X}\mathbf{A}^{\mathsf{T}}$なので、
$$ \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{B})) = \mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A} + \mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}} $$
もし$\mathbf{C} = I$であるなら、
$$ \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{B})) = \mathbf{X}\mathbf{B}\mathbf{A} + \mathbf{X}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}} = \mathbf{X}(\mathbf{B}\mathbf{A} + \mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}) $$
もし$\mathbf{B} = \mathbf{C} = I$であるなら、
$$ \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{\mathsf{T}}\mathbf{X})) = \mathbf{X}\mathbf{A} + \mathbf{X}\mathbf{A}^{\mathsf{T}} = \mathbf{X}(\mathbf{A} + \mathbf{A}^{\mathsf{T}}) $$
■
$f(\mathbf{X}) = \Tr (\mathbf{A}\mathbf{X}\mathbf{C}\mathbf{X}\mathbf{B})$
$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{A}\mathbf{X}\mathbf{C}\mathbf{X}\mathbf{B}) \\ &= \Tr \mathrm{d} (\mathbf{A}\mathbf{X}\mathbf{C}\mathbf{X}\mathbf{B}) \\ &= \Tr (\mathbf{A}(\mathrm{d}\mathbf{X})\mathbf{C}\mathbf{X}\mathbf{B} + \mathbf{A}\mathbf{X}\mathbf{C}(\mathrm{d}\mathbf{X})\mathbf{B}) \\ &= \Tr (\mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A}\mathrm{d}\mathbf{X} + \mathbf{B}\mathbf{A}\mathbf{X}\mathbf{C}\mathrm{d}\mathbf{X}) \\ &= \Tr ((\mathbf{C}\mathbf{X}\mathbf{B}\mathbf{A} + \mathbf{B}\mathbf{A}\mathbf{X}\mathbf{C})\mathrm{d}\mathbf{X}) \\ &= \Tr ((\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}^{\mathsf{T}} + \mathbf{C}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X}) \\ \end{align*} $$
$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}\mathbf{C}\mathbf{X}\mathbf{B})) = (\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}^{\mathsf{T}} + \mathbf{C}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}) $$
もし$\mathbf{C} = I$であるなら、
$$ \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}\mathbf{X}\mathbf{B})) = \mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}} + \mathbf{X}^{\mathsf{T}}\mathbf{A}^{\mathsf{T}}\mathbf{B}^{\mathsf{T}} $$
■
$f(\mathbf{X}) = \Tr (\mathbf{X}^{n})$
$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{X}^{n}) \\ &= \Tr \mathrm{d}(\mathbf{X}^{n}) \\ &= \Tr \left( (\mathrm{d}\mathbf{X}) X^{n-1} + \mathbf{X} (\mathrm{d}\mathbf{X}) X^{n-2} + \cdots + \mathbf{X}^{n-2}(\mathrm{d}\mathbf{X})\mathbf{X} + \mathbf{X}^{n-1}\mathrm{d}\mathbf{X} \right) \\ &= \Tr \left( \overbrace{\mathbf{X}^{n-1} \mathrm{d}\mathbf{X} + \cdots + \mathbf{X}^{n-1} \mathrm{d}\mathbf{X}}^{n} \right) \\ &= \Tr \left( n\mathbf{X}^{n-1} \mathrm{d}\mathbf{X} \right) \\ &= \Tr \left( ((n\mathbf{X}^{n-1})^{\mathsf{T}})^{\mathsf{T}} \mathrm{d}\mathbf{X} \right) \\ \end{align*} $$
$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{X}^{n})) = n(\mathbf{X}^{\mathsf{T}})^{n-1} $$
■
$f(\mathbf{X}) = \Tr (\mathbf{A}\mathbf{X}^{n})$
$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{A}\mathbf{X}^{n}) \\ &= \Tr \mathrm{d}(\mathbf{A}\mathbf{X}^{n}) \\ &= \Tr \left[ \mathbf{A}(\mathrm{d}\mathbf{X})\mathbf{X}^{n-1} + \mathbf{A}\mathbf{X}(\mathrm{d}\mathbf{X})\mathbf{X}^{n-2} + \cdots \mathbf{A}\mathbf{X}^{n-2}(\mathrm{d}\mathbf{X})\mathbf{X} + \mathbf{A}\mathbf{X}^{n-1}(\mathrm{d}\mathbf{X}) \right] \\ &= \Tr \left[ \mathbf{X}^{n-1}\mathbf{A} \mathrm{d}\mathbf{X} + \mathbf{X}^{n-2}\mathbf{A}\mathbf{X} \mathrm{d}\mathbf{X} + \cdots + \mathbf{X}\mathbf{A}\mathbf{X}^{n-2}\mathrm{d}\mathbf{X} + \mathbf{A}\mathbf{X}^{n-1}\mathrm{d}\mathbf{X} \right] \\ &= \Tr \left( \left[ \sum\limits_{i=0}^{n-1} \mathbf{X}^{n-1-i}\mathbf{A}\mathbf{X}^{i} \right]\mathrm{d}\mathbf{X} \right) \\ &= \Tr \left( \left( \left[ \sum\limits_{i=0}^{n-1} \mathbf{X}^{n-1-i}\mathbf{A}\mathbf{X}^{i} \right]^{\mathsf{T}} \right)^{\mathsf{T}} \mathrm{d}\mathbf{X} \right) \\ &= \Tr \left( \left( \sum\limits_{i=0}^{n-1} \left[ \mathbf{X}^{n-1-i}\mathbf{A}\mathbf{X}^{i} \right]^{\mathsf{T}} \right)^{\mathsf{T}} \mathrm{d}\mathbf{X} \right) \\ \end{align*} $$
$$ \implies \nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}^{n})) = \sum\limits_{i=0}^{n-1} \left[ \mathbf{X}^{n-1-i}\mathbf{A}\mathbf{X}^{i} \right]^{\mathsf{T}} $$
■
$f(\mathbf{X}) = \Tr (a_{m}\mathbf{X}^{m} + \dots + a_{1}\mathbf{X} + a_{0})$
$\nabla_{\mathbf{X}} (\Tr (\mathbf{X}^{n})) = n(\mathbf{X}^{\mathsf{T}})^{n-1}$であり、トレースと微分 $\nabla_{X}$が線形であるため、
$$ \begin{align*} \nabla_{\mathbf{X}} \Tr (a_{m}\mathbf{X}^{m} + \dots + a_{1}\mathbf{X} + a_{0}) &= ma_{m}(\mathbf{X}^{\mathsf{T}})^{m-1} + 2a_{2}\mathbf{X}^{\mathsf{T}} + a_{1} \\ &= \sum\limits_{i=1}^{m} i a_{i}(\mathbf{X}^{\mathsf{T}})^{i-1} \end{align*} $$
■
$f(\mathbf{X}) = \mathbf{a}^{\mathsf{T}}\mathbf{X}\mathbf{X}\mathbf{b}$
トレースの定義と性質に従い、次が成立する。
$$ \nabla_{\mathbf{X}} ( \mathbf{a}^{\mathsf{T}}\mathbf{X}\mathbf{X}\mathbf{b} ) = \nabla_{\mathbf{X}} \Tr( \mathbf{a}^{\mathsf{T}}\mathbf{X}\mathbf{X}\mathbf{b} ) = \nabla_{\mathbf{X}} \Tr( \mathbf{b}\mathbf{a}^{\mathsf{T}}\mathbf{X}\mathbf{X} ) $$
$\nabla_{\mathbf{X}} (\Tr (\mathbf{A}\mathbf{X}\mathbf{X})) = \mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}} + \mathbf{X}^{\mathsf{T}}\mathbf{a}^{\mathsf{T}}$なので、
$$ \nabla_{\mathbf{X}} (\mathbf{a}^{\mathsf{T}}\mathbf{X}\mathbf{X}\mathbf{b}) = \mathbf{a}\mathbf{b}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}} + \mathbf{X}^{\mathsf{T}}\mathbf{a}\mathbf{b}^{\mathsf{T}} $$
$f(\mathbf{X}) = \mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}$
$$ \begin{align*} \mathrm{d}f &= \mathrm{d} \Tr (f) \\ &= \mathrm{d} \Tr (\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}) \\ &= \mathrm{d} \Tr (\mathbf{b}\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}) \\ &= \Tr \mathrm{d}(\mathbf{b}\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}) \\ &= \Tr \left( \mathbf{b}\mathbf{a}^{\mathsf{T}}(\mathrm{d}\mathbf{X})^{\mathsf{T}}\mathbf{C}\mathbf{X} + \mathbf{b}\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathrm{d}\mathbf{X} \right) \\ &= \Tr \left( (\mathrm{d}\mathbf{X})^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}\mathbf{a}^{\mathsf{T}} + (\mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{a}\mathbf{b}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X} \right) \\ &= \Tr \left( (\mathbf{C}\mathbf{X}\mathbf{b}\mathbf{a}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X} + (\mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{a}\mathbf{b}^{\mathsf{T}})^{\mathsf{T}}\mathrm{d}\mathbf{X} \right) \\ &= \Tr \left( \left[ \mathbf{C}\mathbf{X}\mathbf{b}\mathbf{a}^{\mathsf{T}} + \mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{a}\mathbf{b}^{\mathsf{T}} \right]^{\mathsf{T}}\mathrm{d}\mathbf{X} \right) \\ \end{align*} $$
$$ \implies \nabla_{\mathbf{X}} (\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}) = \mathbf{C}\mathbf{X}\mathbf{b}\mathbf{a}^{\mathsf{T}} + \mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{a}\mathbf{b}^{\mathsf{T}} $$
または、$\nabla_{\mathbf{X}} (\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}) = \nabla_{\mathbf{X}} \Tr (\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}) = \nabla_{\mathbf{X}} \Tr (\mathbf{b}\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X})$で、
$\nabla_{\mathbf{X}} (\Tr (\mathbf{A}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{B}\mathbf{X})) = \mathbf{B}\mathbf{X}\mathbf{A}^{\mathsf{T}} + \mathbf{B}^{\mathsf{T}}\mathbf{X}\mathbf{A}$なので次が成立する。
$$ \nabla_{\mathbf{X}} (\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{C}\mathbf{X}\mathbf{b}) = \mathbf{C}\mathbf{X}\mathbf{b}\mathbf{a}^{\mathsf{T}} + \mathbf{C}^{\mathsf{T}}\mathbf{X}\mathbf{a}\mathbf{b}^{\mathsf{T}} $$
■