logo

일반적인 컨벡스 함수의 정의 📂함수

일반적인 컨벡스 함수의 정의

정의

벡터공간 VV 에서 정의된 함수 f:VRf : V \to \mathbb{R} 가 모든 x,yV\mathbf{x}, \mathbf{y} \in V 와 모든 t[0,1]t \in [0,1] 에 대해 다음을 만족하면 컨벡스 함수convex Funciton라 한다. f((1t)x+ty)(1t)f(x)+tf(y) f \left( (1-t) \mathbf{x} + t \mathbf{y} \right) \le (1-t) f \left( \mathbf{x} \right) + t f \left( \mathbf{y} \right)

설명

사실 학부수준 이상의 수학을 공부하게 되면 볼록이나 오목이라는 표현은 물론, 컨벡스convex가 아닌 컨케이브concave도 사용하지 않게 된다. 어지간하면 모든 개념을 컨벡스로 통일하며, 컨벡스만을 생각한다. 위에서 소개된 컨벡스 함수는 유클리드 공간 X=RX = \mathbb{R} 에서 정의된 볼록함수의 일반화다.

예시

근의 집합이 포물면을 이루는 f(x,y):=x2+y2f(x,y) := x^{2} + y^{2} 은 컨벡스 함수고, 그 값이 최소가 되는 점은 (x,y)=(0,0)(x,y) = (0,0) 이다.

정리

컨벡스 집합에서의 컨벡스 함수의 최적해

f:RnRf : \mathbb{R}^{n} \to \mathbb{R}미분가능한 컨벡스 함수고, 컨벡스 집합 CRnC \subset \mathbb{R}^{n} 이 컨벡스 집합이라 하면 다음 둘은 동치다.

  • xC\mathbf{x}^{\ast} \in CCC 에서 ff최소화하는 최적해다.
  • 모든 xC\mathbf{x} \in C 에 대해 f(x)(xx)0 \nabla f \left( \mathbf{x}^{\ast} \right) \left( \mathbf{x} - \mathbf{x}^{\ast} \right) \ge 0

증명 1

(    )(\implies)

x(t):=x+t(xx)C,t[0,1] \mathbf{x}(t) := \mathbf{x}^{\ast} + t \left( \mathbf{x} - \mathbf{x}^{\ast} \right) \in C \qquad , t \in [0,1] CC 는 컨벡스 집합이라 가정했으므로, 임의의 xC\mathbf{x} \in Cx\mathbf{x}^{\ast} 사이의 어떤 내분점 x(t)\mathbf{x}(t) 는 위와 같이 나타낼 수 있다. 한편

  • x=arg minxCf\mathbf{x}^{\ast} = \argmin_{\mathbf{x} \in C} f 이므로 모든 xC\mathbf{x} \in C 에 대해 f(x(t))f(x)0f \left( \mathbf{x}(t) \right) - f \left( \mathbf{x}^{\ast} \right) \ge 0 이고
  • f(x(t))f \left( \mathbf{x}(t) \right)t=0t = 0 에서의 편미분계수연쇄법칙에 따라 f(x)(xx)\nabla f \left( \mathbf{x}^{\ast} \right) \left( \mathbf{x} - \mathbf{x}^{\ast} \right) 이므로

f(x)(xx)=[tf(x(t))]t=0=limt0f(x(t))f(x)t0 \begin{align*} & \nabla f \left( \mathbf{x}^{\ast} \right) \left( \mathbf{x} - \mathbf{x}^{\ast} \right) \\ =& \left[ {{ \partial } \over { \partial t }} f \left( \mathbf{x} (t) \right) \right]_{t = 0} \\ =& \lim_{t \to 0} {{ f \left( \mathbf{x} (t) \right) - f \left( \mathbf{x}^{\ast} \right) } \over { t }} \\ \ge & 0 \end{align*} f(x)(xx)0\nabla f \left( \mathbf{x}^{\ast} \right) \left( \mathbf{x} - \mathbf{x}^{\ast} \right) \ge 0 을 얻는다.


(    )(\impliedby)

f((1t)z+ty)(1t)f(z)+tf(y) f \left( (1-t) \mathbf{z} + t \mathbf{y} \right) \le (1-t) f \left( \mathbf{z} \right) + t f \left( \mathbf{y} \right) 의 양변을 tt 로 미분해보면 (z+y)f((1t)z+ty)f(z)+f(y) \left( - \mathbf{z} + \mathbf{y} \right) \nabla f \left( (1-t) \mathbf{z} + t \mathbf{y} \right) \le - f \left( \mathbf{z} \right) + f \left( \mathbf{y} \right) 이므로, t=0t = 0 일때 다음을 얻는다. f(z)+f(z)(yz)f(y) f \left( \mathbf{z} \right) + \nabla f \left( \mathbf{z} \right) \left( \mathbf{y} - \mathbf{z} \right) \le f \left( \mathbf{y} \right) 가정에서 f(x)(xx)0\nabla f \left( \mathbf{x}^{\ast} \right) \left( \mathbf{x} - \mathbf{x}^{\ast} \right) \ge 0 이므로 y=x\mathbf{y} = \mathbf{x}z=x\mathbf{z} = \mathbf{x}^{\ast} 에 대해 다음을 얻는다. f(x)+0f(x)+f(x)(xx)f(x) \begin{align*} & f \left( \mathbf{x}^{\ast} \right) + 0 \\ \le & f \left( \mathbf{x}^{\ast} \right) + \nabla f \left( \mathbf{x}^{\ast} \right) \left( \mathbf{x} - \mathbf{x}^{\ast} \right) \\ \le & f \left( \mathbf{x} \right) \end{align*} f(x)f(x)f \left( \mathbf{x}^{\ast} \right) \le f \left( \mathbf{x} \right) 인데, 이는 모든 xC\mathbf{x} \in C 에 대해 성립하므로 x\mathbf{x}^{\ast}CC 에서 ff 의 최소해가 된다.


  1. Matousek. (2007). Understanding and Using Linear Programming: p186. ↩︎