스칼라 필드의 그래디언트
정의
스칼라 필드 $f : \mathbb{R}^{n} \to \mathbb{R}$의 전 도함수를 특별히 그래디언트gradient, 기울기라 부르고 $\nabla f$라 표기한다.
$$ \begin{align*} \nabla f := f^{\prime} =& \begin{bmatrix} D_{1}f & D_{2}f & \cdots & D_{n}f\end{bmatrix} \\ =& \begin{bmatrix} \dfrac{\partial f}{\partial x_{1}} & \dfrac{\partial f}{\partial x_{2}} & \cdots & \dfrac{\partial f}{\partial x_{n}} \end{bmatrix} \\ =& \dfrac{\partial f}{\partial x_{1}}\hat{x}_{1} + \dfrac{\partial f}{\partial x_{2}}\hat{x}_{2} + \dots + \dfrac{\partial f}{\partial x_{n}}\hat{x}_{n} \end{align*} $$
설명
그래디언트는 쉽게 말해 다변수 함수의 도함수다. 물리학 등에서 자주 쓰이는 3차원 스칼라 함수의 그래디언트는 다음과 같다.
$$ \nabla f = \dfrac{\partial f}{\partial x}\hat{\mathbf{x}} + \dfrac{\partial f}{\partial y}\hat{\mathbf{y}} + \dfrac{\partial f}{\partial z}\hat{\mathbf{z}} = \left( \dfrac{\partial f}{\partial x}, \dfrac{\partial f}{\partial y}, \dfrac{\partial f}{\partial z} \right) $$
주목할만한 점은 함숫값이 스칼라인 스칼라함수의 도함수가 함숫값이 벡터인 벡터함수가 된다는 것이다. 이는 전 도함수의 정의로부터 당연하다고도 볼 수 있지만 직관적으로도 이해할 수 있다.
예시로써 위의 그림을 생각해보자. 위 그림은 $z(x,y) = x^2 - y^2$ 와 같이 정의된 함수 $z : \mathbb{R}^{2} \to \mathbb{R}$ 을 시각적으로 나타낸 것이다. $y = f(x)$와 같은 꼴의 일변수함수와는 달리, 변수가 2개이상인 함수의 변화율을 생각할 때는 그 크기뿐 아니라 방향까지도 생각해야함을 알 수 있다.
이러한 개념을 반영한 방향 도함수는 임의의 방향으로의 도함수를 의미한다. 따라서 다변수 함수는 무수히 많은 방향으로의 도함수를 가지는데, 아래의 정리로부터 그래디언트는 그 중에서 변화율이 가장 큰 방향을 가리킴을 알 수 있다.
델 연산자
한편 $\nabla$는 스칼라 함수 $f$를 다음과 같은 벡터 함수 $g = \mathbb{R}^{n} \to \mathbb{R}^{n}$으로 매핑하는 연산자라고 생각할 수 있으므로 델 연산자dell operator라고도 불린다.
$$ \nabla : f \mapsto g = \left({{ \partial f} \over { \partial x_{1} }} , \cdots , {{ \partial f} \over { \partial x_{n} }} \right) $$
$\nabla$ 기호 자체는 나블라nabla라고 읽는다.
정리
점 $\mathbf{x}_{0} \in \mathbb{R}^{n}$에서 함수 $f$의 증가율이 가장 큰 방향을 나타낸 벡터는 $\nabla f (x_{0})$이다.
증명
$\left\| \mathbf{d} \right\| = 1$ 이 되도록하는 방향 벡터 $\mathbf{d} : = ( d_1 , \cdots , d_n )$ 을 정의하자. 다변수 함수의 테일러 정리에 의해
$$ f \left( x_{0} + h \mathbf{d} \right) = f ( \mathbf{x}_{0} ) + h \left[ {{ \partial f ( \mathbf{x}_{0} ) } \over { \partial x_{1} }} d_{1} + \cdots + {{ \partial f ( \mathbf{x}_{0} ) } \over { \partial x_{n} }} d_{n} \right] + O (h^2) $$
행렬 꼴로 바꾸면
$$ f \left( x_{0} + h \mathbf{d} \right) - f ( \mathbf{x}_{0} ) = h \begin{bmatrix} {{ \partial f ( \mathbf{x}_{0} ) } \over { \partial x_{1} }} \\ \vdots \\ {{ \partial f ( \mathbf{x}_{0} ) } \over { \partial x_{n} }} \end{bmatrix} \cdot \begin{bmatrix} d_{1} \\ \vdots \\ d_{n} \end{bmatrix} + O (h^2) $$
벡터 꼴로 바꾸면
$$ {{ f \left( x_{0} + h \mathbf{d} \right) - f ( \mathbf{x}_{0} )} \over {h}} = \nabla f \left( \mathbf{x}_{0} \right) \cdot \mathbf{d} + O (h) $$
$h \to 0$ 일 때
$$ \nabla f \left( \mathbf{x}_{0} \right) \cdot \mathbf{d} = \lim_{h \to 0} {{ f \left( x_{0} + h \mathbf{d} \right) - f ( \mathbf{x}_{0} )} \over {h}} $$
$\mathbf{b}$ 가 $\mathbf{x}_{0}$ 에서 $f$ 의 기울기와 같은 방향이라는 것은 $\mathbf{d}$ 가
$$ \lim_{h \to 0} {{ f \left( x_{0} + h \mathbf{d} \right) - f ( \mathbf{x}_{0} )} \over {h}} $$
이 가장 커지도록 하는 단위벡터라는 뜻이다. 이를 만족하는 경우는 $\displaystyle \mathbf{d} = {{\nabla f \left( \mathbf{x}_{0} \right) } \over { \left\| \nabla f \left( \mathbf{x}_{0} \right) \right\| }}$뿐이고, 따라서
$$ \nabla f \left( \mathbf{x}_{0} \right) = \left\| \nabla f \left( \mathbf{x}_{0} \right) \right\| \mathbf{d} $$
은 $\mathbf{x}_{0}$ 에서 $f$ 의 그래디언트가 된다.
■