logo

機械学習におけるSiLUまたはSwish関数 📂機械学習

機械学習におけるSiLUまたはSwish関数

定義 1 2

シルーSiLU, Sigmoid-weighted Linear Unit または スウィッシュSwish 関数は次のように定義される。 SiLU(x)=xσ(x) \operatorname{SiLU}(x) = x \cdot \sigma(x) ここで σ\sigmaシグモイド関数のうち特にロジスティック関数であり、σ(x)=(1+ex)1\sigma(x) = \left( 1 + e^{-x} \right)^{-1} を指す。

説明

alt text

シルーはReLUと類似の形状を示すが、ReLUとは異なり単調関数ではなくスムーズである。ロジスティック関数は、導関数が00 に留まることで生じるグラデーション消失gradient vanishingという問題があり、ReLU関数も00 以下の値で学習が進行しないダイイングReLUdying ReLUという問題があるが、シルー関数はこの二つの問題を自然に回避する。


  1. Elfwing, S., Uchibe, E., & Doya, K. (2018). Sigmoid-weighted linear units for neural network function approximation in reinforcement learning. Neural networks, 107, 3-11. https://doi.org/10.48550/arXiv.1702.03118 ↩︎

  2. Ramachandran, P., Zoph, B., & Le, Q. V. (2017). Searching for activation functions. arXiv preprint arXiv:1710.05941. https://doi.org/10.48550/arXiv.1710.05941 ↩︎