最適化器
📂機械学習最適化器
定義
最適化問題とは、関数f:Rn→Rの関数値が最小になるようなx∗を見つけることを指す。
x∗=xargminf(x)
最適化問題を解く一連のアルゴリズムをオプティマイザoptimizerという。
説明
機械学習、ディープラーニングにおいて関数fは損失関数loss functionと呼ばれ、このときxはニューラルネットワークのパラメータ、すなわち重みとなる。
確率的勾配降下法
ディープラーニングで使われるオプティマイザは実質的にほぼすべてが確率的勾配降下法である。損失関数をL、パラメータをθと表記しよう。勾配降下法とは次のようなオプティマイザを指す。
θi+1=θi−α∇L(θi)
モメンタム手法
モメンタム手法とは、以下のように前の段階の勾配を累積して足すオプティマイザを指す。
θi+1=θi+αj=0∑iβj∇L(θi)
ネステロフモメンタム
ネステロフモメンタムは、モメンタム手法に少し変形を加えたものである。p0=0に対して、
pi+1=βpi−α∇L(θi+βpi)
θi+1=θi+pi+1
AdaGrad
AdaGradは適応的学習率を適用したオプティマイザである。勾配を∇Li=∇L(θi)と簡単に表記すると、
riαiθi+1=(∇Li)⊙(∇Li)=αi−1+δ+riϵ=j=1∑iδ+rjϵ=θi−αi⊙∇Li
RMSProp
RMSPropはAdaGradの変形で、加えられる項を指数的に減少するように加重平均を適用するものである。
riαiθi+1=(∇Li)⊙(∇Li)=ραi−1+(1−ρ)δ+riϵ=(1−ρ)j=1∑iρi−jδ+rjϵ=θi−αi⊙∇Li
Adam
Adamは適応的学習率とモメンタムを組み合わせたオプティマイザである。
pip^irir^iα^iθi+1=β1pi−1+(1−β1)∇Li−1=1−(β1)ipi=β2ri−1+(1−β2)∇Li⊙∇Li=1−(β2)ir=δ+r^iϵ=θi−αi^⊙pi^
その他
大学院生降下法
大学院生降下法は、大学院生をオプティマイザとして使用する方法を指す。昔からよく使用されており、現在も世界中で活発に使用されている方法である。性能は様々だがコスト面では大変効率を誇るコストパフォーマンスの良いオプティマイザである。
モンテカルロ
モンテカルロとは、ランダムに最大限多く試みることを指す。
グリッドサーチ
グリッドサーチとは、その名の通りユークリッド空間Rnを格子状に分け、多くの点について試しながら最適解を探す方法である。