머신러닝에서 실루 혹은 스위시 함수 SiLU, Swish
정의 1 2
실루SiLU, Sigmoid-weighted Linear Unit 혹은 스위시Swish 함수는 다음과 같이 정의된다. 여기서 는 시그모이드 함수 중 특히 로지스틱 함수 다.
설명
실루는 렐루와 유사한 개형을 보이지만, 렐루와 달리 단조함수가 아니며 스무스하다. 로지스틱 함수는 도함수가 에 머무르는 그래디언트 배니싱gradient vanishing이라는 문제를 가지고 있고, 렐루 함수도 이하의 값에 갇혀 학습이 진행되지 않는 다잉 렐루dying ReLU라는 문제가 있는데 실루 함수는 이 두가지 문제를 자연스럽게 회피한다.
Elfwing, S., Uchibe, E., & Doya, K. (2018). Sigmoid-weighted linear units for neural network function approximation in reinforcement learning. Neural networks, 107, 3-11. https://doi.org/10.48550/arXiv.1702.03118 ↩︎
Ramachandran, P., Zoph, B., & Le, Q. V. (2017). Searching for activation functions. arXiv preprint arXiv:1710.05941. https://doi.org/10.48550/arXiv.1710.05941 ↩︎