機械学習におけるSiLUまたはSwish関数
定義 1 2
シルーSiLU, Sigmoid-weighted Linear Unit または スウィッシュSwish 関数は次のように定義される。 ここで はシグモイド関数のうち特にロジスティック関数であり、 を指す。
説明
シルーはReLUと類似の形状を示すが、ReLUとは異なり単調関数ではなくスムーズである。ロジスティック関数は、導関数が に留まることで生じるグラデーション消失gradient vanishingという問題があり、ReLU関数も 以下の値で学習が進行しないダイイングReLUdying ReLUという問題があるが、シルー関数はこの二つの問題を自然に回避する。
Elfwing, S., Uchibe, E., & Doya, K. (2018). Sigmoid-weighted linear units for neural network function approximation in reinforcement learning. Neural networks, 107, 3-11. https://doi.org/10.48550/arXiv.1702.03118 ↩︎
Ramachandran, P., Zoph, B., & Le, Q. V. (2017). Searching for activation functions. arXiv preprint arXiv:1710.05941. https://doi.org/10.48550/arXiv.1710.05941 ↩︎