ISTA: 反復ソフトスレショールディングアルゴリズム 📂最適化理論

ISTA: 反復ソフトスレショールディングアルゴリズム

アルゴリズム

$$ \argmin_{\beta} \left( {{ 1 } \over { 2 }} \left\| Y - X \beta \right\|_{2}^{2} + \lambda \left\| \beta \right\|_{1} \right) $$

上のような BPDN、あるいはラッソ回帰問題を解く方法として、次の更新則を ISTA^{Iterative Soft Thresholding Algorithm} と呼ぶ。 $$ \beta^{(k+1)} = S_{\lambda} \left( \beta^{(k)} - \alpha X^{T} \left( X \beta^{(k)} - Y \right) \right) $$ ここで $\alpha$ はステップサイズ^{step size} であり、ベクトル化された^vectorized ソフトスレッショルディング $S_{\lambda} : \mathbb{R}^{n} \to \mathbb{R}^{n}$ はベクトルの各成分に対してソフトスレッショルディング $\eta_{S} \left( x ; \lambda \right)$ を適用する関数である。

説明

ISTA はプラクシマル・グラディエント・メソッドの一種で、行列代数的に容易に解ける最小二乗法と異なり、解を零ベクトルの近傍で見つけたい場合に使える。

$\lambda$ が定数として与えられているとき、ラッソ回帰の目的関数 $L$ を上のように表す。一般にラッソ回帰の最適解は閉形式^{closed form} を持たないが、 $X$ の全てのカラムが互いに直交すると仮定すれば、$\hat{\beta} = \argmin_{\beta} L \left( \beta \right)$ の $k$ 番目の成分 $\left( \hat{\beta} \right)_{k}$ は次のようになる。 $$ \begin{align*} \left( \hat{\beta} \right)_{k} =& {{ 1 } \over { \left( X^{T} X \right)_{kk} }} \eta_{\lambda} \left( X^{T} Y \right)_{k} \\ = & {{ 1 } \over { \left( X^{T} X \right)_{kk} }} \begin{cases} \left( X^{T} Y \right)_{k} + \lambda & , \text{if } \left( X^{T} Y \right)_{k} < - \lambda \\ 0 & , \text{if } \left( X^{T} Y \right)_{k} \in [-\lambda, \lambda] \\ \left( X^{T} Y \right)_{k} - \lambda & , \text{if } \left( X^{T} Y \right)_{k} > \lambda \end{cases} \end{align*} $$

実際、BPDN において計画行列がフルランクのとき、ラッソ回帰の最適解は上のように表せるし、そうでなくてもラッソ回帰を実行する手法が ISTA である。こうした理論的背景を数式的に理解することは非常に重要で、これを理解することなしに発展した FISTA を知ることはできないためだ。

導出

$S_{\lambda}$ はそれ自体が解を零ベクトルの近傍へ移す関数であり、プラクシマル演算子を反映しているとみなせるので、BPDN では平方項である $L = \left\| Y - X \beta \right\|_{2}^{2} / 2$ に注意すればよい。

残差二乗和の勾配: $$ f \left( \mathbf{s} \right) := \left( \mathbf{y} - X \mathbf{s} \right)^{T} R \left( \mathbf{y} - X \mathbf{s} \right) $$ $\mathbf{s}$ に依存しないベクトル $\mathbf{y} \in \mathbb{R}^{n}$ と行列 $X \in \mathbb{R}^{n \times p}$、$R \in \mathbb{R}^{n \times n}$ に対して次が成り立つ。 $$ {{ \partial f \left( \mathbf{s} \right) } \over { \partial \mathbf{s} }} = - X^{T} \left( R + R^{T} \right) \left( \mathbf{y} - X \mathbf{s} \right) $$

$R = I$ の場合に上の公式を適用すると $$ \begin{align*} & {{ \partial } \over { \partial \beta }} L \\ =& {{ 1 } \over { 2 }} {{ \partial } \over { \partial \beta }} \left\| Y - X \beta \right\|_{2}^{2} \\ =& {{ \partial } \over { \partial \beta }} {{ 1 } \over { 2 }} \left( Y - X \beta \right)^{T} \left( Y - X \beta \right) \\ =& - {{ 1 } \over { 2 }} X^{T} \left( I + I^{T} \right) \left( Y - X \beta \right) \\ =& X^{T} \left( X \beta - Y \right) \end{align*} $$ であり、これ自体が勾配だから勾配降下法に当てはめると $$ \beta^{(k+1)} = \beta^{(k)} - \alpha \nabla L $$ となり、ここにベクトル化されたソフトスレッショルディングを適用すれば ISTA の更新則になる。

■