機械学習における勾配降下法と確率的勾配降下法 📂機械学習

機械学習における勾配降下法と確率的勾配降下法

概要

損失関数の勾配を利用して損失関数の極小値を見つけるアルゴリズムの中でもっとも単純な方法として 勾配降下法^{gradient Descent Algorithm}がある。

説明

ただし、このときの損失関数$L$はデータセット$X$が固定された状態での重みとバイアスに対する関数と見なされる。入力データが$\mathbf{x} \in \mathbb{R}^{m}$のように見える場合、$L$は$(w_{1} , w_{2} , \cdots , w_{m} , b) \in \mathbb{R}^{m+1}$に対する関数となる。同じデータであっても重みとバイアスによって損失関数の値は異なり、損失関数が小さくなるということはそれだけ良いモデルを作り出したことを意味する。

勾配降下法は、このような関数$L$が作り出す多様体に沿って極小値となる最適な重みを見つける。この原理をもう少し厳密に理解したい場合は、数値解析学の勾配降下法について学ぶといい。

最初に選んだ重みとバイアスのベクトル$\mathbf{w}_{1} \in \mathbb{R}^{m+1}$について損失関数の値をより小さくする$\mathbf{w}_{2}$は、ある適切な正数$\alpha$によって $$ \mathbf{w}_{2} := \mathbf{w}_{1} - \alpha \nabla L (\mathbf{w}_{1} ) $$ のように計算される。これを繰り返す $$ \mathbf{w}_{n+1} := \mathbf{w}_{n} - \alpha \nabla L (\mathbf{w}_{n} ) $$ も損失関数の値を次第に小さくすることができる。これにより$\mathbf{w}_{n}$を更新することを バックプロパゲーションと呼ぶ。機械学習では$\alpha$を 学習率^{learning Rate, ラーニングレート}と呼び、この値によって勾配降下法が成功することも失敗することもある。

$20190325\_114213.png$

成功する場合とは、上の図のように計算を繰り返しながら$L$が極小値になる重みとバイアスを正確に見つけた場合だ。特に図では極小値でありながら最小値になっているが、一般的に極小値は極小値に過ぎず、最小値であるか確信できるわけではない。

$20190325\_124516.png$

$\alpha$が大きすぎると、上のように値が急激に変わり学習のスピードは速くなるが、過度に大きい場合は収束しないことがある。これを オーバーシューティングと呼ぶ。

$20190325\_125126.png$

反対に$\alpha$が小さすぎると、数学的には収束性が保証されるが、変化が小さすぎて時間がかかりすぎ、局所最小値に引っかかるとその近くから抜け出すことができない。

これが勾配降下法の基本的な概念で、実際には上記のような問題を補うためにさまざまな技術を用いる。

確率的勾配降下法

ミニバッチごとに勾配降下法を適用することを 確率的勾配降下法^{stochastic gradient descent, SGD}という。ある文献では以下のように説明されている。

バッチ学習で学習する: バッチ勾配降下法
ミニバッチ学習で学習する: ミニバッチ勾配降下法
オンライン学習で学習する: 確率的勾配降下法

しかし、この区分は実際には無意味だ。一般的にディープラーニングではミニバッチ学習のみが使用され、ミニバッチ学習でバッチサイズを$1$にするとそれがオンライン学習になるためだ。したがって、実際のディープラーニングでは「勾配降下法 = 確率的勾配降下法 = ミニバッチ勾配降下法」と受け入れてもよい。

「確率的」という言葉に大きな意味を置く必要もない。全データセットを母集団と見なすと、ミニバッチで学習することは標本集団に対して繰り返し学習することと同じなので、確率的と呼んで理解しても問題ない。

機械学習における勾配降下法と確率的勾配降下法

概要

説明

確率的勾配降下法

併せて見る