머신러닝에서 실루 혹은 스위시 함수 SiLU, Swish 📂머신러닝

머신러닝에서 실루 혹은 스위시 함수 SiLU, Swish

정의 ¹ ²

실루^{SiLU, Sigmoid-weighted Linear Unit} 혹은 스위시^Swish 함수는 다음과 같이 정의된다. $\operatorname{SiLU}(x) = x \cdot \sigma(x)$ 여기서 $\sigma$ 는 시그모이드 함수 중 특히 로지스틱 함수 $\sigma(x) = \left( 1 + e^{-x} \right)^{-1}$ 다.

설명

alt text

실루는 렐루와 유사한 개형을 보이지만, 렐루와 달리 단조함수가 아니며 스무스하다. 로지스틱 함수는 도함수가 $0$ 에 머무르는 그래디언트 배니싱^{gradient vanishing}이라는 문제를 가지고 있고, 렐루 함수도 $0$ 이하의 값에 갇혀 학습이 진행되지 않는 다잉 렐루^{dying ReLU}라는 문제가 있는데 실루 함수는 이 두가지 문제를 자연스럽게 회피한다.

Elfwing, S., Uchibe, E., & Doya, K. (2018). Sigmoid-weighted linear units for neural network function approximation in reinforcement learning. Neural networks, 107, 3-11. https://doi.org/10.48550/arXiv.1702.03118 ↩︎
Ramachandran, P., Zoph, B., & Le, Q. V. (2017). Searching for activation functions. arXiv preprint arXiv:1710.05941. https://doi.org/10.48550/arXiv.1710.05941 ↩︎

머신러닝에서 실루 혹은 스위시 함수 SiLU, Swish

정의 1 2

설명

정의 ¹ ²