행렬값 함수의 미분

개요

행렬값 함수의 미분을 정의한다. 행렬값 함수의 미분을 정의하는 방식은 벡터값 함수의 미분을 정의하는 것과 같다. 스칼라 함수의 미분을 각 성분에 적용하는 것으로 자연스럽게 정의된다.

$\mathbf{A} : I \subset \mathbb{R} \to \mathbb{R}^{n \times m}$을 행렬값 함수라 하자.

$$ \mathbf{A}(t) = \begin{bmatrix} a_{11}(t) & \cdots & a_{1m}(t) \\ \vdots & \ddots & \vdots \\ a_{n1}(t) & \cdots & a_{nm}(t) \end{bmatrix} $$

아래의 극한이 존재하면 $\mathbf{A}$가 $t$에서 미분가능하다^{differentiable at $t$}고 하며 그 값을 $\mathbf{A}$의 $t$에서의 미분계수라 한다.

$$ \dfrac{d}{dt} \mathbf{A}(t) = \mathbf{A}^{\prime}(t) := \lim_{h \to 0} \dfrac{\mathbf{A}(t+h) - \mathbf{A}(t)}{h} $$

모든 $t \in I$에 대해서 $\mathbf{A}^{\prime}(t)$가 존재하면 $\mathbf{A}$는 $I$에서 미분가능하다고 하며, $\mathbf{A}^{\prime}$를 $\mathbf{A}$의 도함수^derivative라 한다.

설명

행렬값 함수의 미분은 본질적으로 벡터값 함수의 경우와 완전히 동일하며, 행렬을 하나의 벡터 $\mathbb{R}^{n \times m} \cong \mathbb{R}^{nm}$으로 생각하면 자연스럽게 이해된다. 정의에 의해서 $\mathbf{A}$가 미분가능하다는 것은 각 성분이 미분가능하다는 것과 같다. 즉 $\mathbf{A}$의 도함수는 아래와 같다.

$$ \begin{bmatrix} \dfrac{d \mathbf{A}}{dt} \end{bmatrix}_{ij} = \dfrac{d a_{ij}}{dt} $$

벡터값 함수의 경우와 다른 점은 행렬에서만 정의되는 행렬곱, 전치, 대각합, 행렬식, 역행렬에 관한 내용 등이다.

성질

$\mathbf{A}$가 미분가능하면, 다음의 함수들도 그러하고 식은 아래와 같다.

(a) $\dfrac{d}{dt}(\mathbf{A} + \mathbf{B}) = \dfrac{d\mathbf{A}}{dt} + \dfrac{d\mathbf{B}}{dt}$

(b) $\dfrac{d}{dt}(c\mathbf{A}) = c\dfrac{d\mathbf{A}}{dt}$

(c) $\dfrac{d}{dt}(\mathbf{A}\mathbf{B}) = \dfrac{d\mathbf{A}}{dt}\mathbf{B} + \mathbf{A}\dfrac{d\mathbf{B}}{dt}$

(d) $\dfrac{d}{dt}(\mathbf{A}^{\mathsf{T}}) = \left(\dfrac{d\mathbf{A}}{dt}\right)^{\mathsf{T}}$

(e) $\dfrac{d}{dt}(\tr\mathbf{A}) = \tr\left(\dfrac{d\mathbf{A}}{dt}\right)$

(f) $\dfrac{d}{dt}(\det\mathbf{A}) = \det\mathbf{A} \cdot \tr\left(\mathbf{A}^{-1}\dfrac{d\mathbf{A}}{dt}\right)$

(g) $\dfrac{d}{dt}(\mathbf{A}^{-1}) = -\mathbf{A}^{-1}\dfrac{d\mathbf{A}}{dt}\mathbf{A}^{-1}$

(h) $\dfrac{d}{dt} \Braket{\mathbf{A}, \mathbf{B}} = \Braket{\dfrac{d\mathbf{A}}{dt}, \mathbf{B}} + \Braket{\mathbf{A}, \dfrac{d\mathbf{B}}{dt}}$

증명

위 식들을 성분별로 풀어쓰면, 미분가능한 스칼라 함수들의 합과 곱으로 나타난다. 미분가능한 함수들의 합과 곱도 여전히 미분가능하므로 위 성질들이 성립한다.

(f)

이를 야코비 공식이라 한다.

$$ \dfrac{d}{dt} (\det \mathbf{A}(t)) = \det \mathbf{A}(t) \cdot \tr\left( \mathbf{A}(t)^{-1} \dfrac{d\mathbf{A}(t)}{dt} \right) $$

■

(g)

역행렬로 보내는 사상이 미분가능하므로, 역행렬도 미분가능하다. $\mathbf{A} \mathbf{A}^{-1} = I$의 양변을 미분하면 다음과 같다.

$$ \dfrac{d}{dt}(\mathbf{A} \mathbf{A}^{-1}) = \dfrac{d \mathbf{A}}{dt} \mathbf{A}^{-1} + \mathbf{A}\dfrac{d \mathbf{A}^{-1}}{dt} = \dfrac{d I}{dt} = O $$

$\dfrac{d \mathbf{A}^{-1}}{dt}$에 대해 정리하면 다음을 얻는다.

$$ \dfrac{d \mathbf{A}^{-1}}{dt} = -\mathbf{A}^{-1}\dfrac{d \mathbf{A}}{dt}\mathbf{A}^{-1} $$

$1 \times 1$ 행렬, 즉 스칼라인 경우를 생각해보면 원래 알던 공식과 같다. 가령 $x^{-1}$를 보면, $\dfrac{d x^{-1}}{dx} = - x^{-1} \dfrac{dx}{dx} x^{-1} = -x^{2}$이다.

■