logo

머신러닝에서 실루 혹은 스위시 함수 SiLU, Swish 📂머신러닝

머신러닝에서 실루 혹은 스위시 함수 SiLU, Swish

정의 1 2

실루SiLU, Sigmoid-weighted Linear Unit 혹은 스위시Swish 함수는 다음과 같이 정의된다. SiLU(x)=xσ(x) \operatorname{SiLU}(x) = x \cdot \sigma(x) 여기서 σ\sigma시그모이드 함수 중 특히 로지스틱 함수 σ(x)=(1+ex)1\sigma(x) = \left( 1 + e^{-x} \right)^{-1} 다.

설명

alt text

실루는 렐루와 유사한 개형을 보이지만, 렐루와 달리 단조함수가 아니며 스무스하다. 로지스틱 함수는 도함수가 00 에 머무르는 그래디언트 배니싱gradient vanishing이라는 문제를 가지고 있고, 렐루 함수도 00 이하의 값에 갇혀 학습이 진행되지 않는 다잉 렐루dying ReLU라는 문제가 있는데 실루 함수는 이 두가지 문제를 자연스럽게 회피한다.


  1. Elfwing, S., Uchibe, E., & Doya, K. (2018). Sigmoid-weighted linear units for neural network function approximation in reinforcement learning. Neural networks, 107, 3-11. https://doi.org/10.48550/arXiv.1702.03118 ↩︎

  2. Ramachandran, P., Zoph, B., & Le, Q. V. (2017). Searching for activation functions. arXiv preprint arXiv:1710.05941. https://doi.org/10.48550/arXiv.1710.05941 ↩︎