logo

시그모이달 함수란? 📂머신러닝

시그모이달 함수란?

정의

다음을 만족하는 함수 $\sigma : \mathbb{R} \to \mathbb{R}$ 을 시그모이달 함수sigmoidal function라 한다. $$ \sigma (t) \to \begin{cases} 1 & \text{as } t \to + \infty \\ 0 & \text{as } t \to - \infty \end{cases} $$

정의에 대한 설명

시그모이달 함수의 정의에서 $0$ 이나 $1$ 이냐는 것은 사실 별로 중요하지 않고, 양이든 음이든 무한대로 갈 때 상수로 수렴한다는 것이 중요하다. 무한대가 아닌 곳에서 어떤 값을 가지지는지도 별로 중요하지는 않다. 이러한 센스에서 로지스틱 함수는 물론 시그모이드 함수들도 시그모이달 함수일 것이다.

시그모이달 함수의 가장 대표적인 용도는 딥러닝에서의 응용이다. 어떤 독자는 딥러닝에서 2010년대 후반 이후로 ReLU나 Mish같은 활성화 함수가 뛰어난 퍼포먼스를 보이는 것 때문에 시그모이달 함수를 과소평가 할수도 있겠다. 그러나 시그모이달 함수가 수학적, 컴퓨터 공학적으로 어떻게 중요하냐고 묻는다면 단지 $0$ 아니면 $1$ 로 수렴할뿐인 단순한 형태로도 인공 신경망이라는 기법의 가능성을 이론적으로 보장할 수 있기 때문에 중요하다고 답하겠다. 시그모이달 함수에 대한 탐구는 보편 근사 정리라는 위대한 결과로 이어지고, 이는 의심의 여지 없이 대단히 중요한 결과다.

정리

시그모이달 함수의 차별성: 유계 가측 시그모이달 함수는 차별 함수다.

정리에 대한 설명

우리가 흔히 사용하는 시그모이달 함수가 차별성을 가진다는 것이 중요한 이유는 차별 함수의 개념이 용도에 비해서는 조금 과하게 어렵기 때문이다. 그러나 위의 정리에 따라 차별 함수에 대한 건 몰라도 우리가 프로그래밍을 통해 실제로 구현할 수 있는, 손에 잡힐듯 구체적인 예를 얻을 수 있다.

증명 1

차별적 함수의 정의 모든 $y \in \mathbb{R}^{n}$ 과 $\theta \in \mathbb{R}$ 와 어떤 $\mu \in M \left( I_{n} \right)$ 에 대해 다음을 만족하면 함수 $\sigma : \mathbb{R} \to \mathbb{R}$ 를 차별적 함수라 한다. $$ \int_{I_{n}} \sigma \left( y^{T} x + \theta \right) d \mu (x) = 0 \implies \mu =0 $$


Claim

차별적 함수의 정의에 따라 시그모이달 함수 $\sigma$ 가 $$ \int_{I_{n}} \sigma \left( y^{T} x + \theta \right) d \mu (x) = 0 $$ 일 때 $\mu =0$ 임을 보이면 된다.


Part 1. $\sigma_{{\lambda}}$ 와 $\gamma$ 의 정의

임의의 $x \in I_{n}$ 와 $y \in \mathbb{R}^{n}$ 와 $\theta , \varphi \in \mathbb{R}$ 에 대해 함수 $\sigma_{\lambda} : I_{n} \to \mathbb{R}$ 을 다음과 같이 정의하자. $$ \sigma_{\lambda} (x) := \sigma \left( \lambda \left( y^{T} x + \theta \right) + \varphi \right) $$ 그러면 $\lambda$ 가 바뀌는 것에 따라 $$ \sigma_{\lambda} \begin{cases} \to 1 & \text{for } y^{T} x + \theta > 0 & \text{as } \lambda \to \infty \\ \to 0 & \text{for } y^{T} x + \theta < 0 & \text{as } \lambda \to \infty \\ = \sigma \left( \varphi \right) & \text{for } y^{T} x + \theta = 0 & \text{for all } \lambda \in \mathbb{R} \end{cases} $$ 이므로, 새로운 함수 $\gamma : I_{n} \to \mathbb{R}$ 를 $$ \gamma (x) := \begin{cases} 1 & \text{for } y^{T} x + \theta > 0 \\ 0 & \text{for } y^{T} x + \theta < 0 \\ \sigma \left( \varphi \right) & \text{for } y^{T} x + \theta = 0 \end{cases} $$ 와 같이 정의하면 $\lambda \to \infty$ 일 때 $\sigma_{\lambda}$ 는 $\gamma$ 으로 점별 수렴한다.


Part 2. $\mu$ 가 부호 측도가 아닐 때

이제 전체공간 $I_{n}$ 을 하이퍼플레인hyperplane $H^{0}_{y, \theta}$ 을 기준삼아 다음처럼 세 부분으로 쪼개자. $$ H^{+}_{y, \theta} := \left\{ x \in \mathbb{R}^{n} : y^{T} x + \theta > 0 \right\} \\ H^{0}_{y, \theta} := \left\{ x \in \mathbb{R}^{n} : y^{T} x + \theta = 0 \right\} \\ H^{-}_{y, \theta} := \left\{ x \in \mathbb{R}^{n} : y^{T} x + \theta < 0 \right\} $$ $\forall y \in \mathbb{R}^{n}$ 이고 $\forall \theta \in \mathbb{R}$ 이면 결국 르벡 적분 안에서는 $\sigma \left( y^{T} x + \theta \right)$ 이나 $\sigma \left( \lambda \left( y^{T} x + \theta \right) + \varphi \right)$ 나 마찬가지고, 지배 수렴 정리에 따라 $\displaystyle \lim_{\lambda \to \infty} \cdot$ 와 $\displaystyle \int_{I_{n}} \cdot d \mu$ 의 순서를 바꿀 수 있으므로 모든 $\varphi \in \mathbb{R}$ 에 대해 $$ \begin{align*} 0 =& \int_{I_{n}} \sigma \left( y^{T} x + \theta \right) d \mu (x) \\ =& \lim_{\lambda \to \infty} \int_{I_{n}} \sigma \left( y^{T} x + \theta \right) d \mu (x) \\ =& \lim_{\lambda \to \infty} \int_{I_{n}} \sigma \left( \lambda \left( y^{T} x + \theta \right) + \varphi \right) d \mu (x) \\ =& \int_{I_{n}} \lim_{\lambda \to \infty} \sigma_{\lambda} \left( x \right) d \mu (x) \\ =& \int_{I_{n}} \gamma (x) d \mu (x) \\ =& \int_{H^{+}_{y, \theta}} \gamma (x) d \mu (x) + \int_{H^{0}_{y, \theta}} \gamma (x) d \mu (x) + \int_{H^{-}_{y, \theta}} \gamma (x) d \mu (x) \\ =& \int_{H^{+}_{y, \theta}} 1 d \mu (x) + \int_{H^{0}_{y, \theta}} \sigma (\varphi) d \mu (x) + \int_{H^{-}_{y, \theta}} 0 d \mu (x) \\ =& \mu \left( H^{+}_{y, \theta} \right) + \sigma (\varphi) \mu \left( H^{0}_{y, \theta} \right) \end{align*} $$ $\mu$ 가 부호 측도가 아니라면 하이퍼플레인 $H^{0}_{y, \theta}$ 은 $I_{n}$ 에서 정의된 측도 $\mu$ 에 대해 당연히 $\mu \left(H^{0}_{y, \theta} \right) = 0$ 이어야 한다. 이는 모든 $y,\theta$ 에 대해서 성립하므로 항상 $\mu \left( H^{+}_{y, \theta} \right) = 0$ 이고, 시그모이달 함수 $\sigma$ 는 차별 함수다. 그러나 $\mu$ 가 부호 측도라면 $\mu \left(H^{0}_{y, \theta}\right) = 0$ 임이 보장되지 않으므로 별도의 증명이 필요하다. 수학적인 일반성을 다소 포기하고 인공신경망으로의 응용만을 알고 싶다면 증명은 여기서 그만두어도 큰 문제가 없다.


Part 3. $\mu$ 가 부호 측도일 때

$y$ 를 픽스하고 유계 가측함수 $h : \mathbb{R} \to \mathbb{R}$ 에 대해 다음과 같은 선형범함수 $F \in \left( L^{\infty} (\mathbb{R}) \right)^{ \ast }$ 을 정의하자. $$ F (h) := \int_{I_{n}} h \left( y^{T} x \right) d \mu (x) $$ $F$ 는 르벡 적분으로 정의되었기 때문에 선형성이 보장되며, $\mu \in M \left( I_{n} \right)$ 가 유한 부호 측도이므로 $F$ 도 유계가 되어 $L^{\infty} (\mathbb{R})$ 에 속한다. 이제 $h$ 가 어떤 $\mu \in M \left( I_{n} \right)$ 에 대해 다음을 만족시키는 $[ \theta , \infty )$ 에 대한 지시 함수 $h \left( y^{T} x \right) := \begin{cases} 1 & , y^{T}x \ge \theta \\ 0 & , y^{T}x < \theta \end{cases}$ 라고 하자. $$ \begin{align*} F(h) =& \int_{I_{n}} h \left( y^{T} x \right) d \mu (x) \\ =& \mu \left( H^{+}_{y, -\theta} \right) + \mu \left( H^{0}_{y, -\theta} \right) \\ =& 0 \end{align*} $$ 비슷하게 $h$ 가 $(\theta , \infty)$ 에 대한 지시함수면 $F(h) = 0$ 고, $F$ 의 선형성에 따라 모든 구간의 지시 함수 $h$ 에 대해서도 $F(h)=0$ 이다. 그렇다면 모든 단순 함수 $h$ 에 대해서도 $F(h) = 0$ 인데 단순 함수들의 집합은 $L^{\infty } ( \mathbb{R} )$ 에서 조밀하므로 $F = 0$ 이다. 다시 말해, 모든 유계 가측함수 $h \in L^{\infty} \left( \mathbb{R} \right)$ 에 대해 $F(h) = 0$ 이다. 우리는 $\sigma$ 역시 유계 가측 시그모이달 함수로 가정했으니 $\sigma \in L^{\infty} ( \mathbb{R} )$ 이고, $$ F (\sigma) = \int_{I_{n}} \sigma \left( y^{T} x \right) d \mu (x) = \int_{I_{n}} \sigma \left( y^{T} x + \theta \right) d \mu (x) = 0 $$ 이다. 이제 이러한 조건에서 $\mu = 0$ 임을 보이기만 하면 된다.


Part 4.

$L^{\infty}\left( \mathbb{R} \right)$ 은 유계 가측 함수들의 벡터 공간이므로, $m \in \mathbb{R}^{n}$ 에 대해 유계 가측함수 $s,c : I_{n} \to \mathbb{R}$ 를 $$ s(x) := \sin \left( m^{T} x \right) \\ c(x) := \cos \left( m^{T} x \right) $$ 와 같이 정의하면 벡터 공간이 덧셈과 스칼라 곱에 대해 닫혀 있으므로 $c + is$ 역시 유계 가측 함수다. 그런데 모든 유계 가측 함수에 대해 $F=0$ 이었으므로 오일러 공식에 따라 $$ \begin{align*} 0 =& F (c + is) \\ =& \int_{I_{n}} \left[ \cos \left( m^{T} x \right) + i \sin \left( m^{T} x \right) \right] d \mu (x) \\ =& \int_{I_{n}} \exp \left( i m^{T} x \right) d \mu (x) \end{align*} $$

푸리에 변환의 정의: 다음과 같은 변환 $\mathcal{F}$ 을 푸리에 변환이라고 한다. $$ \mathcal{F}f(\xi):=\int f(x)e^{-i \xi x }d x $$

푸리에 변환의 정의와 르벡 적분의 성질에 따라 $$ 0 = F (c + is) = \mathcal{F} \mu $$ 이다. 이는 $\mu$ 의 푸리에 변환이 $0$이라는 것이므로 $\mu = 0$ 이고, 정리하면 $$ \int_{I_{n}} \sigma \left( y^{T} x + \theta \right) d \mu (x) = 0 \implies \mu =0 $$ 따라서 $\sigma$ 는 차별 함수다.


  1. G. Cybenko. (1989). Approximation by Superpositions of a Sigmoidal Function p5. ↩︎