残差二乗和の勾配

概要

統計学および機械学習の多くの回帰問題では次のように残差平方和を目的関数として用い、特に $f$ が線形結合である場合行列形式で簡潔に表現できる。 $$ \begin{align*} RSS =& \sum_{k} \left( y_{k} - f \left( \mathbf{x}_{k} \right) \right)^{2} \\ =& \sum_{k} \left( y_{k} - \left( s_{0} + s_{1} x_{k1} + \cdots + s_{p} x_{kp} \right) \right)^{2} \\ =& \left( \mathbf{y} - X \mathbf{s} \right)^{T} \left( \mathbf{y} - X \mathbf{s} \right) \\ =& \left\| \mathbf{y} - X \mathbf{s} \right\|_{2}^{2} \end{align*} $$ ここにもう少し一般化を加えて、行列 $R \in \mathbb{R}^{n \times n}$ に対して次のような形を持つスカラー関数の勾配を導く。

公式 ¹

$$ f \left( \mathbf{s} \right) := \left( \mathbf{y} - X \mathbf{s} \right)^{T} R \left( \mathbf{y} - X \mathbf{s} \right) $$ $\mathbf{s}$ に依存しないベクトル $\mathbf{y} \in \mathbb{R}^{n}$ と行列 $X \in \mathbb{R}^{n \times p}$、$R \in \mathbb{R}^{n \times n}$ に対して次が成り立つ。 $$ {{ \partial f \left( \mathbf{s} \right) } \over { \partial \mathbf{s} }} = - X^{T} \left( R + R^{T} \right) \left( \mathbf{y} - X \mathbf{s} \right) $$

導出

転置行列の性質: $r,s\in \mathbb{R}$ であり $A,B$ はそれぞれの場合に行列演算が正しく定義されるようなサイズを持つとする。すると次が成り立つ。
(a) 線形性: $$\left( rA + sB\right)^{T}=r A^{T} + s B^{T}$$

ベクトルと行列の勾配: $$ \frac{ \partial \mathbf{w}^{T}\mathbf{x}}{ \partial \mathbf{w} } = \frac{ \partial \mathbf{x}^{T}\mathbf{w}}{ \partial \mathbf{w} } = \mathbf{x} $$ $$ \frac{ \partial }{ \partial \mathbf{w} }\left( \mathbf{w}^{T}\mathbf{R}\mathbf{w} \right)= \left( \mathbf{R} + \mathbf{R}^{T} \right) \mathbf{w} $$

$$ \begin{align*} {{ \partial } \over { \partial \mathbf{s} }} f \left( \mathbf{s} \right) =& {{ \partial } \over { \partial \mathbf{s} }} \left( \mathbf{y} - X \mathbf{s} \right)^{T} R \left( \mathbf{y} - X \mathbf{s} \right) \\ =& {{ \partial } \over { \partial \mathbf{s} }} \left( \mathbf{y}^{T} - \mathbf{s}^{T} X^{T} \right) R \left( \mathbf{y} - X \mathbf{s} \right) \\ =& {{ \partial } \over { \partial \mathbf{s} }} \left( - \mathbf{s}^{T} X^{T} R \mathbf{y} - \mathbf{y}^{T} R X \mathbf{s} + \mathbf{s}^{T} X^{T} R X \mathbf{s} \right) \\ =& - X^{T} R \mathbf{y} - X^{T} R^{T} \mathbf{y} + X^{T} \left( R + R^{T} \right) X \mathbf{s} \\ =& - X^{T} \left( R + R^{T} \right) \mathbf{y} + X^{T} \left( R + R^{T} \right) X \mathbf{s} \\ =& - X^{T} \left( R + R^{T} \right) \left( \mathbf{y} - X \mathbf{s} \right) \end{align*} $$

■

系1

系として $R$ が対称行列であれば $$ {{ \partial f \left( \mathbf{s} \right) } \over { \partial \mathbf{s} }} = - 2 X^{T} R \left( \mathbf{y} - X \mathbf{s} \right) $$ であり、単位行列であれば次を得る。 $$ {{ \partial f \left( \mathbf{s} \right) } \over { \partial \mathbf{s} }} = - 2 X^{T} \left( \mathbf{y} - X \mathbf{s} \right) $$

系2

アダマール積 $\odot$ に対して、$f(\mathbf{s}) := \left\| X(\boldsymbol{\tau} \odot \mathbf{s}) - \mathbf{y} \right\|_{2}^{2}$ と定義すると、$X(\boldsymbol{\tau} \odot \mathbf{s}) = X \diag(\boldsymbol{\tau}) \mathbf{s}$ なので

$$ \begin{align*} \dfrac{\partial f(\mathbf{s})}{\partial \mathbf{s}} & = 2 \left( X \diag(\boldsymbol{\tau}) \right)^{T} \left( X \diag(\boldsymbol{\tau})\mathbf{s} - \mathbf{y}\right) \\ & = 2 \diag(\boldsymbol{\tau})^{T} X^{T} \left( X (\boldsymbol{\tau} \odot \mathbf{s}) - \mathbf{y}\right) \\ & = 2 \boldsymbol{\tau} \odot X^{T} \left( X (\boldsymbol{\tau} \odot \mathbf{s}) - \mathbf{y}\right) \\ \end{align*} $$

系3

一点 $\mathbf{a}$ とベクトル $\mathbf{x} = \mathbf{x} (t)$ との距離としての $l^{2}$-ノルム $\left\| \mathbf{x} - \mathbf{a} \right\|$ の導関数は次の通りだ。 $$ {\frac{ d \left\| \mathbf{x} - \mathbf{a} \right\| }{ d t }} = \dot{\mathbf{x}} \cdot {\frac{ \mathbf{x} - \mathbf{a} }{ \left\| \mathbf{x} - \mathbf{a} \right\| }} $$ これは $R$ と $X$ が単位行列であり、$\sqrt{\cdot}$ にチェーンルールが入ることで導かれる。 $$ \begin{align*} & {\frac{ d \left\| \mathbf{x} - \mathbf{a} \right\| }{ d t }} \\ =& {\frac{ d }{ d t }} \sqrt{ \left\| \mathbf{a} - \mathbf{x} \right\|_{2}^{2} } \\ =& {\frac{ 1 }{ 2 \sqrt{ \left\| \mathbf{a} - \mathbf{x} \right\|_{2}^{2} } }} {\frac{ d }{ d t }} \left( \mathbf{a} - \mathbf{x} \right)^{T} \left( \mathbf{a} - \mathbf{x} \right) \\ =& {\frac{ - 2 \left( \mathbf{a} - \mathbf{x} \right) }{ 2 \left\| \mathbf{x} - \mathbf{a} \right\| } } \cdot {\frac{ d }{ d t }} \mathbf{x} \\ =& {\frac{ \mathbf{x} - \mathbf{a} }{ \left\| \mathbf{x} - \mathbf{a} \right\| }} \cdot \dot{\mathbf{x}} \end{align*} $$

系3 は楕円の光学的性質を証明するのに使える。

Petersen. (2008). The Matrix Cookbook: p10. ↩︎

残差二乗和の勾配

概要

公式 1

導出

系1

系2

系3

公式 ¹