行列微分解剖
定義
$n \times n$ 行列 $\mathbf{X} = [x_{ij}] a$の微分素 $\mathrm{d}\mathbf{X}$は次のように定義される。
$$ \mathrm{d} \mathbf{X} = \begin{bmatrix} \mathrm{d} x_{11} & \mathrm{d} x_{12} & \cdots & \mathrm{d} x_{1n} \\ \mathrm{d} x_{21} & \mathrm{d} x_{22} & \cdots & \mathrm{d} x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ \mathrm{d} x_{n1} & \mathrm{d} x_{n2} & \cdots & \mathrm{d} x_{nn} \end{bmatrix} $$
説明
一変数関数の微分素 $\mathrm{d}x$をベクトルに一般化したものが $\mathrm{d}\mathbf{x}$であれば、これを行列に一般化したものが $\mathrm{d}\mathbf{X}$である。
一変数関数 $f: \mathbb{R} \to \mathbb{R}$の全微分:
$$ \mathrm{d}f = \dfrac{\mathrm{d}f}{\mathrm{d}x} \mathrm{d}x $$
多変数関数 $f: \mathbb{R}^{n} \to \mathbb{R}$の全微分: $$ \mathrm{d}f = \sum_{i} \dfrac{\partial f}{\partial x_{i}} \mathrm{d}x_{i} = \Braket{\nabla_{\mathbf{x}}f, \mathrm{d}\mathbf{x}} = (\nabla_{\mathbf{x}}f)^{\mathsf{T}} \mathrm{d}\mathbf{x} = \begin{bmatrix} \dfrac{\partial f}{\partial x_{1}} & \cdots & \dfrac{\partial f}{\partial x_{n}} \end{bmatrix} \begin{bmatrix} \mathrm{d}x_{1} \\ \vdots \\ \mathrm{d}x_{n} \end{bmatrix} $$
行列変数関数function of a matrix $f: \mathbb{R}^{n \times n} \to \mathbb{R}$の全微分: $$ \mathrm{d}f = \sum\limits_{i,j} \dfrac{\partial f}{\partial x_{ij}} \mathrm{d}x_{ij} = \Braket{\nabla_{\mathbf{X}}f, \mathrm{d}\mathbf{X}} = \Tr \left( \left( \nabla_{\mathbf{X}}f \right)^{\mathsf{T}} \mathrm{d}\mathbf{X} \right) $$
スカラーの微分素 $\mathrm{d}x$に関する性質がそのまま維持される。
$$ \mathrm{d}(ax) = a \mathrm{d}x \qquad \mathrm{d}(x + y) = \mathrm{d}x + \mathrm{d}y \qquad \mathrm{d}(xy) = y\mathrm{d}x + x\mathrm{d}y $$
性質
変数である行列 $\mathbf{X}, \mathbf{Y} \in \mathbb{R}^{n \times n}$とスカラー $\alpha \in \mathbb{R}$、定数行列 $\mathbf{A} \in \mathbb{R}^{n \times n}$に対して次が成り立つ。
- $\mathrm{d}(\alpha \mathbf{X}) = \alpha \mathrm{d}\mathbf{X}$
- $\mathrm{d}(\mathbf{X}^{\mathsf{T}}) = (\mathrm{d}\mathbf{X})^{\mathsf{T}}$
- $\mathrm{d}(\mathbf{A}\mathbf{X}) = \mathbf{A} \mathrm{d}\mathbf{X}$そして$\mathrm{d}(\mathbf{X}\mathbf{A}) = (\mathrm{d}\mathbf{X}) \mathbf{A}$
- $\mathrm{d}(\mathbf{X} + \mathbf{Y}) = \mathrm{d}\mathbf{X} + \mathrm{d}\mathbf{Y}$
- $\mathrm{d}(\mathbf{X}\mathbf{Y}) = (\mathrm{d}\mathbf{X})\mathbf{Y} + \mathbf{X} \mathrm{d}\mathbf{Y}$
証明
3.
$[\mathbf{A}\mathbf{X}]_{ij} = \sum_{k=1}^{n} a_{ik} x_{kj}$であるため、
$$ [\mathrm{d}(\mathbf{A}\mathbf{X})]_{ij} = \mathrm{d}\left( \sum_{k=1}^{n} a_{ik} x_{kj} \right) = \sum_{k=1}^{n} a_{ik}(\mathrm{d}x_{kj}) $$
$$ \implies \mathrm{d}(\mathbf{A}\mathbf{X}) = \mathbf{A}\mathrm{d}\mathbf{X} $$
■
5.
$[\mathbf{X}\mathbf{Y}]_{ij} = \sum_{k=1}^{n} x_{ik} y_{kj}$であるため、
$$ [\mathrm{d}(\mathbf{X}\mathbf{Y})]_{ij} = \mathrm{d}\left( \sum_{k=1}^{n} x_{ik} y_{kj} \right) = \sum_{k=1}^{n} (\mathrm{d}x_{ik}) y_{kj} + \sum_{k=1}^{n} x_{ik} \mathrm{d}y_{kj} $$
よって次を得る。
$$ [\mathrm{d}(\mathbf{X}\mathbf{Y})]_{ij} = \sum_{k=1}^{n} x_{ik} \mathrm{d}y_{kj} + \sum_{k=1}^{n} x_{ik} \mathrm{d}y_{kj} = [(\mathrm{d}\mathbf{X})\mathbf{Y}]_{ij} + [\mathbf{X}\mathrm{d}\mathbf{Y}]_{ij} \\[1em] \implies \mathrm{d}(\mathbf{X}\mathbf{Y}) = (\mathrm{d}\mathbf{X})\mathbf{Y} + \mathbf{X}\mathrm{d}\mathbf{Y} $$
■