logo

논문 리뷰: 스코어 매칭(Score Matching) 📂머신러닝

논문 리뷰: 스코어 매칭(Score Matching)

개요

스코어 매칭score matching은 2005년에 발표된 Aapo Hyvarinen의 논문 Estimation of Non-Normalized Statistical Models by Score Matching에서 소개된 통계적 기법으로, 비정규화 모델non-normalized model을 추정할 때 정규화상수를 고려하지 않아도 되는 방법이다.

1. Introduction

많은 경우에서, 확률 모델은 정규화 상수 $Z$를 포함하는 비정규화 모델로 주어진다. 예를 들어, 모수가 $\boldsymbol{\theta}$인 확률밀도함수 $p_{\boldsymbol{\theta}}$는 다음과 같이 정의된다.

$$ p(\boldsymbol{\xi}; \boldsymbol{\theta}) = \dfrac{1}{Z(\boldsymbol{\theta})} q(\boldsymbol{\xi}; \boldsymbol{\theta}) $$

여기서 직면하는 문제는 $q$는 해석적으로 잘 알려져있거나 계산하기 쉬운 꼴인 반면, $Z(\boldsymbol{\theta}) = \int q(\boldsymbol{\xi}; \boldsymbol{\theta}) d \boldsymbol{\xi}$는 계산하기 어려운 경우가 많다는 것이다. 특히나 $\boldsymbol{\theta}$가 고차원 벡터인 경우, 차원의 저주 문제를 포함하여 계산하는게 사실상 불가능한 경우도 있다. 이전에는 비정규화 모델을 추정할 때 마코프체인 몬테카를로 방법을 흔히 썼지만 이는 속도가 느리고, 다른 방법들은 성능이 다소 떨어지는 경우가 많았다.

2. Estimation by Score Matching

제안하는 방법의 핵심은 [스코어 함수]score function이다. 데이터의 분포를 근사하는 모델의 확률밀도함수 $p(\boldsymbol{\xi}; \boldsymbol{\theta})$의 스코어 함수를 $\psi(\boldsymbol{\xi}; \boldsymbol{\theta})$라 표기하고 다음과 같이 정의한다.

$$ \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) = \begin{bmatrix} \psi_{1}(\boldsymbol{\xi}; \boldsymbol{\theta}) \\ \vdots \\ \psi_{n}(\boldsymbol{\xi}; \boldsymbol{\theta}) \end{bmatrix} := \begin{bmatrix} \dfrac{\partial \log p(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{1}} \\ \vdots \\ \dfrac{\partial \log p(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{n}} \end{bmatrix} = \nabla_{\boldsymbol{\xi}} \log p(\boldsymbol{\xi}; \boldsymbol{\theta}) $$

다시 말해, 스코어 함수란 로그 확률밀도함수의 그래디언트이다. 논문에서 제안하는 방법은 정규화 상수를 무시할 수 있으므로 스코어 함수를 다시 다음과 같이 표기한다.

$$ \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) = \nabla_{\boldsymbol{\xi}} \log q(\boldsymbol{\xi}; \boldsymbol{\theta}) $$

실제 데이터 $\mathbf{x}$의 분포에 대한 스코어 함수는 아래와 같이 표기하자.

$$ \psi_{\mathbf{x}}( \cdot ) = \nabla_{\boldsymbol{\xi}} \log p_{\mathbf{x}}( \cdot ) $$

논문에서는 데이터의 스코어와 모델의 스코어의 기댓값 차이가 줄어들도록, 다음과 같이 목적함수를 설정한다.

$$ \begin{equation} \begin{aligned} J(\boldsymbol{\theta}) &= \dfrac{1}{2} \int p_{\mathbf{x}}(\boldsymbol{\xi}) \left\| \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) - \psi_{\mathbf{x}}(\boldsymbol{\xi}) \right\|^{2} \mathrm{d}\boldsymbol{\xi} \\ &= \dfrac{1}{2} \int p_{\mathbf{x}}(\boldsymbol{\xi}) \left\| \nabla_{\boldsymbol{\xi}} \log q(\boldsymbol{\xi}; \boldsymbol{\theta}) - \nabla_{\boldsymbol{\xi}} \log p_{\mathbf{x}}(\boldsymbol{\xi}) \right\|^{2} \mathrm{d}\boldsymbol{\xi} \end{aligned} \end{equation} $$

따라서 스코어 매칭score matching이란 다음과 같이 $\boldsymbol{\theta}$의 추정량을 구하는 방법이다.

$$ \hat{\boldsymbol{\theta}} = \argmin\limits_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) $$

그런데 $(1)$을 보면 사실 문제가 있는데, $\psi_{\mathbf{x}}(\boldsymbol{\xi}) = \nabla_{\boldsymbol{\xi}} \log p_{\mathbf{x}}(\boldsymbol{\xi})$를 계산하려면 $p_{\mathbf{x}}$를 알아야한다는 것이다. $p_{\mathbf{x}}$를 모르기 때문에 모델을 $p(\boldsymbol{\xi}; \boldsymbol{\theta})$라 두고 근사하는 것인데, 근사하기 위해서는 $p_{\mathbf{x}}$를 알아야한다는 것은 모순처럼 보인다. 사실 아래의 정리로부터 $(1)$에서 $\psi_{\mathbf{x}}$가 없는 꼴로 바꿀 수 있다.


$\textbf{Theorem 1}$ 모델의 스코어 함수 $\psi(\boldsymbol{\xi}; \boldsymbol{\theta})$가 미분가능하다고 하자. 그러면 $(1)$은 다음과 같이 표현된다.

$$ \begin{align*} J(\boldsymbol{\theta}) &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \sum\limits_{i=1}^{n} \left[ \partial_{i} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) + \dfrac{1}{2} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta})^{2} \right] \mathrm{d}\boldsymbol{\xi} + \text{constant} \tag{2} \\ &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \left[\sum\limits_{i=1}^{n} \partial_{i} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) + \dfrac{1}{2} \Braket{ \psi(\boldsymbol{\xi}; \boldsymbol{\theta}), \psi(\boldsymbol{\xi}; \boldsymbol{\theta})} \right] \mathrm{d}\boldsymbol{\xi} + \text{constant} \\ &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \left[\Delta \log q(\boldsymbol{\xi}; \boldsymbol{\theta}) + \dfrac{1}{2} \| \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) \|_{2}^{2} \right] \mathrm{d}\boldsymbol{\xi} + \text{constant} \end{align*} $$

여기서 $\text{constant}$는 $\boldsymbol{\theta}$에 의존하지 않는 상수이다. $\psi_{i}$는 스코어의 $i$번째 성분이고, $\partial_{i} \psi_{i}$는 스코어 함수의 $i$번째 성분의 $i$번째 변수로의 편미분이다.

$$ \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) = \dfrac{\partial \log q(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{i}} $$ $$ \partial_{i} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) = \dfrac{\partial \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{i}} = \dfrac{\partial^{2} \log q(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{i}^{2}} $$


증명은 아래의 Appendix를 참고하라. 괄호안의 첫번째 항은 사실 $\sum$으로 묶으면 확률밀도함수 $q$의 라플라시안과 같다.

$$ \Delta q = \nabla^{2} \log q = \sum\limits_{i=1}^{n} \dfrac{\partial^{2} \log q}{\partial \xi_{i}^{2}} $$

실제로는 유한개의 데이터만 다룰 수 있으므로, $T$개의 표본 $\mathbf{x}(1), \dots, \mathbf{x}(T)$가 주어졌다면, $(2)$의 표본에 대한 수식은 다음과 같다.

$$ \tilde{J}(\boldsymbol{\theta}) = \dfrac{1}{T} \sum\limits_{t=1}^{T} \sum\limits_{i=1}^{n} \left[ \partial_{i} \psi_{i}(\mathbf{x}(t); \boldsymbol{\theta}) + \dfrac{1}{2} \psi_{i}(\mathbf{x}(t); \boldsymbol{\theta})^{2} \right] + \text{constant} $$

뒤따르는 다음의 정리로부터 $(2)$를 최적화하는 것이 실제로 모델을 추정하는데 충분하다는 것을 알 수 있다.


$\textbf{Theorem 2}$ 어떤 유일한 $\boldsymbol{\theta}^{\ast}$에 대해서 $p_{\mathbf{x}}(\cdot) = p(\cdot; \boldsymbol{\theta}^{\ast})$가 성립한다고 하자. 그리고 $q(\boldsymbol{\xi}; \boldsymbol{\theta}) > 0$이라고 하자. 그러면 다음이 성립한다.

$$ J(\boldsymbol{\theta}) = 0 \iff \boldsymbol{\theta} = \boldsymbol{\theta}^{\ast} $$


$\textbf{Corollary 3}$ 앞선 정리들의 가정 하에서, $\tilde{J}$를 최소화하여 얻은 스코어 매칭 추정량은 일치추정량이다. 즉, 표본의 수가 무한대로 증가할 때 해당 추정량은 참값 $\boldsymbol{\theta}^{\ast}$로 확률 수렴하며, 이는 최적화 알고리즘이 전역 최소값을 찾을 수 있다고 가정할 경우에 성립한다.


표본의 수가 많아지면 $\tilde{J}$가 $J$로 수렴하므로, 큰 수의 법칙에 의해 $\text{Corollary}$가 성립한다.

3. Examples

3.1 Multivariate Gaussian Density

아주 간단한 경우로, 다변량 정규 분포를 생각해보자.

$$ p(\mathbf{x}; \mathbf{M}, \boldsymbol{\mu}) = \dfrac{1}{Z(\mathbf{M}, \boldsymbol{\mu} )} \exp \left( -\dfrac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^{\mathsf{T}} \mathbf{M} (\mathbf{x} - \boldsymbol{\mu}) \right) $$

여기서 $\mathbf{M} \in \mathbb{R}^{n \times n}$는 공분산 행렬역행렬양의 정부호이자 대칭행렬이다. $\boldsymbol{\mu} \in \mathbb{R}^{n}$는 평균벡터이다. 물론 이 경우에는 $Z(\mathbf{M}, \boldsymbol{\mu}) = ((2\pi)^{n} \det \mathbf{M})^{1/2}$임이 잘 알려져있지만, 간단한 예제로써 다뤄보자.

3.1.1 Estimation

이 경우에 $q$, $\psi$, $\partial_{i} \psi$는 각각 다음과 같다.

$$ q(\mathbf{x}) = \exp \left( -\dfrac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^{\mathsf{T}} \mathbf{M} (\mathbf{x} - \boldsymbol{\mu}) \right) $$

대칭행렬 $\mathbf{R}$에 대해서, 이차형식의 그래디언트는 $\nabla_{\mathbf{x}} (\mathbf{x}^{\mathsf{T}} \mathbf{R} \mathbf{x}) = 2 \mathbf{R} \mathbf{x}$이므로,

$$ \psi(\mathbf{x}; \mathbf{M}, \boldsymbol{\mu}) = -\mathbf{M} (\mathbf{x} - \boldsymbol{\mu}) = - \begin{bmatrix} \sum\limits_{j}m_{1j}(x_{j}-\mu_{j}) \\ \vdots \\[1em] \sum\limits_{j}m_{nj}(x_{j}-\mu_{j})\end{bmatrix} $$

여기서 $\mathbf{M} = [m_{ij}]$이다. $\partial_{i} \psi_{i} = \dfrac{\partial \psi_{i}}{\partial x_{i}}$는 다음과 같다.

$$ \partial_{i} \psi_{i}(\mathbf{x}; \mathbf{M}, \boldsymbol{\mu}) = -m_{ii} $$

따라서 $\tilde{J}$는 다음과 같다. $\sum_{i} \psi_{i} = \braket{\psi, \psi} = \psi^{\mathsf{T}} \psi$이므로,

$$ \begin{align*} \tilde{J}(\mathbf{M}, \boldsymbol{\mu}) &= \dfrac{1}{T} \sum\limits_{t=1}^{T} \left[ \sum\limits_{i} -m_{ii} + \dfrac{1}{2}\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)^{\mathsf{T}} \mathbf{M}^{\mathsf{T}} \mathbf{M} \left( \mathbf{x}(t) - \boldsymbol{\mu} \right) \right] \\ &= \dfrac{1}{T} \sum\limits_{t=1}^{T} \left[ - \Tr (\mathbf{M}) + \dfrac{1}{2}\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)^{\mathsf{T}} \mathbf{M}^{\mathsf{T}} \mathbf{M} \left( \mathbf{x}(t) - \boldsymbol{\mu} \right) \right] \end{align*} $$

여기서 $\Tr$은 트레이스이다. 위 식을 최소화하는 $\boldsymbol{\mu}$를 찾기위해 그래디언트를 계산해보면, 다시 이차행렬의 그래디언트 공식에 의해,

$$ \begin{align*} \nabla_{\boldsymbol{\mu}} \tilde{J} &= \dfrac{1}{T} \sum\limits_{t=1}^{T} \left[ \mathbf{M}^{\mathsf{T}} \mathbf{M} \left( \boldsymbol{\mu} - \mathbf{x}(t) \right) \right] \\ &= \dfrac{1}{T} \sum\limits_{t=1}^{T} \mathbf{M}^{\mathsf{T}} \mathbf{M} \boldsymbol{\mu} - \dfrac{1}{T} \sum\limits_{t=1}^{T} \mathbf{M}^{\mathsf{T}} \mathbf{M} \mathbf{x}(t) \\ &= \mathbf{M}^{\mathsf{T}} \mathbf{M} \boldsymbol{\mu} - \mathbf{M}^{\mathsf{T}} \mathbf{M} \dfrac{1}{T} \sum\limits_{t=1}^{T} \mathbf{x}(t) \\ \end{align*} $$

따라서 $\nabla_{\boldsymbol{\mu}} \tilde{J} = \mathbf{0}$을 만족하는 $\boldsymbol{\mu}$는 표본평균이다.

$$ \boldsymbol{\mu}^{\ast} = \dfrac{1}{T} \sum\limits_{t=1}^{T} \mathbf{x}(t) $$

스칼라 함수의 행렬 미분:

$$ \nabla_{\mathbf{X}} (\Tr \mathbf{X}) = I $$

$$ \nabla_{\mathbf{X}} (\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{a}) = 2\mathbf{X}\mathbf{a}\mathbf{a}^{\mathsf{T}} $$

위 공식에 따라 $\nabla_{\mathbf{M}} \tilde{J}$를 계산해보면, (논문에 있는 식과 결과적으로 같다. 아래의 꼴이 더 간단히 정리된 표현이다.)

$$ \begin{align*} \nabla_{\mathbf{M}} \tilde{J} &= \dfrac{1}{T} \sum\limits_{t=1}^{T} [-I + \mathbf{M}\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)^{\mathsf{T}}] \\ &= -I + \mathbf{M} \sum\limits_{t=1}^{T}\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)^{\mathsf{T}} \end{align*} $$

위 식이 $\mathbf{0}$이 되려면, $\mathbf{M}$이 표본공분산행렬렬 $\sum\limits_{t=1}^{T}\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)^{\mathsf{T}}$의 역행렬이 되어야한다.

위 결과에서 알 수 있듯이, 스코어 매칭은 최대우도추정과 같은 추정량을 제공한다.

Appendix A. Prood of Theorem 1

$(1)$의 놈 $\| \cdot \|^{2} = \Braket{\cdot, \cdot}$을 전개하면 다음과 같다.

$$ \begin{align*} J(\boldsymbol{\theta}) &= \dfrac{1}{2} \int p_{\mathbf{x}}(\boldsymbol{\xi}) \left\| \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) - \psi_{\mathbf{x}}(\boldsymbol{\xi}) \right\|^{2} \mathrm{d}\boldsymbol{\xi} \\ &= \dfrac{1}{2} \int p_{\mathbf{x}}(\boldsymbol{\xi}) \Braket{ \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) - \psi_{\mathbf{x}}(\boldsymbol{\xi}), \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) - \psi_{\mathbf{x}}(\boldsymbol{\xi})} \mathrm{d}\boldsymbol{\xi} \\ &= \dfrac{1}{2} \int p_{\mathbf{x}}(\boldsymbol{\xi}) \Big[ \Braket{ \psi(\boldsymbol{\xi}; \boldsymbol{\theta}), \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) } + \Braket{\psi_{\mathbf{x}}(\boldsymbol{\xi}), \psi_{\mathbf{x}}(\boldsymbol{\xi})} - 2\Braket{\psi(\boldsymbol{\xi}; \boldsymbol{\theta}), \psi_{\mathbf{x}}(\boldsymbol{\xi})} \Big] \mathrm{d}\boldsymbol{\xi} \\ &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \Big[ \dfrac{1}{2}\| \psi(\boldsymbol{\xi}; \boldsymbol{\theta})\|^{2} + \dfrac{1}{2}\| \psi_{\mathbf{x}}(\boldsymbol{\xi})\|^{2} - \Braket{\psi(\boldsymbol{\xi}; \boldsymbol{\theta}), \psi_{\mathbf{x}}(\boldsymbol{\xi})} \Big] \mathrm{d}\boldsymbol{\xi} \end{align*} $$

세번째 항에 대해서만 적분을 보면 아래와 같다.

$$ -\sum\limits_{i} \int p_{\mathbf{x}}(\boldsymbol{\xi}) \psi_{\mathbf{x}, i}(\boldsymbol{\xi}) \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\boldsymbol{\xi} $$

각 $i$에 대한 적분은 다음과 같이 바꿔 쓸 수 있다. 로그함수의 미분법에 의해,

$$ \begin{align*} -\int p_{\mathbf{x}}(\boldsymbol{\xi}) \psi_{\mathbf{x}, i}(\boldsymbol{\xi}) \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\boldsymbol{\xi} &= -\int p_{\mathbf{x}}(\boldsymbol{\xi}) \dfrac{\partial \log p_{\mathbf{x}}(\boldsymbol{\xi})}{\partial \xi_{i}} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\boldsymbol{\xi} \\ &= -\int p_{\mathbf{x}}(\boldsymbol{\xi})\left( \dfrac{1}{p_{\mathbf{x}}(\boldsymbol{\xi})} \dfrac{\partial p_{\mathbf{x}}(\boldsymbol{\xi})}{\partial \xi_{i}} \right)\psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\boldsymbol{\xi} \\ &= -\int \dfrac{\partial p_{\mathbf{x}}(\boldsymbol{\xi})}{\partial \xi_{i}} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\boldsymbol{\xi} \\ \end{align*} $$

이는 다시 부분적분법에 의해 다음과 같이 바꿔 쓸 수 있다.

$$ \begin{align*} & -\int \dfrac{\partial p_{\mathbf{x}}(\boldsymbol{\xi})}{\partial \xi_{i}} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\boldsymbol{\xi} \\ &= -\int \left( \int \dfrac{\partial p_{\mathbf{x}}(\boldsymbol{\xi})}{\partial \xi_{i}} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\xi_{1} \right) \mathrm{d}(\xi_{2},\dots,\xi_{n}) \\ &= -\int \left( \left[p_{\mathbf{x}}(\boldsymbol{\xi}) \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \right]_{\xi_{1}=-\infty}^{\infty} - \int p_{\mathbf{x}}(\boldsymbol{\xi}) \dfrac{\partial \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{i}} \mathrm{d}\xi_{1} \right) \mathrm{d}(\xi_{2},\dots,\xi_{n}) \\ &= \int \int p_{\mathbf{x}}(\boldsymbol{\xi}) \dfrac{\partial \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{i}} \mathrm{d}\xi_{1}\mathrm{d}(\xi_{2},\dots,\xi_{n}) \\ &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \dfrac{\partial \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{i}} \mathrm{d}\boldsymbol{\xi} = \int p_{\mathbf{x}}(\boldsymbol{\xi}) \partial_{i} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\boldsymbol{\xi} \end{align*} $$

여기서 $p_{\mathbf{x}}$는 확률밀도함수이므로 적분가능해야하고, 따라서 $\lim\limits_{\boldsymbol{\xi} \to \pm \infty}p_{\mathbf{x}}(\boldsymbol{\xi}) = 0$이므로 괄호안의 정적분값은 $0$이다. 이를 원래 식에 대입하고 정리하면 다음을 얻는다.

$$ \begin{align*} J(\boldsymbol{\theta}) &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \Big[ \dfrac{1}{2}\| \psi(\boldsymbol{\xi}; \boldsymbol{\theta})\|^{2} + \dfrac{1}{2}\| \psi_{\mathbf{x}}(\boldsymbol{\xi})\|^{2} - \Braket{\psi(\boldsymbol{\xi}; \boldsymbol{\theta}), \psi_{\mathbf{x}}(\boldsymbol{\xi})} \Big] \mathrm{d}\boldsymbol{\xi} \\ &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \Big[ \dfrac{1}{2}\| \psi(\boldsymbol{\xi}; \boldsymbol{\theta})\|^{2} + \sum\limits_{i}\partial_{i} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \Big] \mathrm{d}\boldsymbol{\xi} + \dfrac{1}{2}\int p_{\mathbf{x}}(\boldsymbol{\xi}) \| \psi_{\mathbf{x}}(\boldsymbol{\xi})\|^{2} \mathrm{d}\boldsymbol{\xi} \\ &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \Big[ \dfrac{1}{2}\| \psi(\boldsymbol{\xi}; \boldsymbol{\theta})\|^{2} + \sum\limits_{i}\partial_{i} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \Big] \mathrm{d}\boldsymbol{\xi} + \dfrac{1}{2}\int p_{\mathbf{x}}(\boldsymbol{\xi}) \| \psi_{\mathbf{x}}(\boldsymbol{\xi})\|^{2} \mathrm{d}\boldsymbol{\xi} \\ \end{align*} $$

마지막항은 $\boldsymbol{\theta}$에 의존하지 않는 상수항이다. 따라서 다음을 얻는다.

$$ J(\boldsymbol{\theta}) = \int p_{\mathbf{x}}(\boldsymbol{\xi}) \sum\limits_{i}\Big[ \frac{1}{2} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta})^{2} + \partial_{i} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \Big] \mathrm{d}\boldsymbol{\xi} + \text{constant} $$

Appendix B. Prood of Theorem 2

$$ J(\boldsymbol{\theta}) = 0 \iff \boldsymbol{\theta} = \boldsymbol{\theta}^{\ast} $$

($\implies$)

$J(\boldsymbol{\theta}) = 0$이라 가정하자.

$$ J = \int p_{x}(\boldsymbol{\xi}) \| \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) - \psi_{\mathbf{x}}(\boldsymbol{\xi}) \|^{2} \mathrm{d}\boldsymbol{\xi} = 0 = \left\langle p_{x}, \| \psi - \psi_{\mathbf{x}} \|^{2} \right\rangle $$

모든 $\boldsymbol{\xi}$에 대해서 $q \gt 0$이므로 $p(\boldsymbol{\xi}) \gt 0$ $\forall \boldsymbol{\xi}$이고, $\| \psi - \psi_{\mathbf{x}} \|^{2} \ge 0$이므로 모든 $\boldsymbol{\xi}$에 대해 $\| \psi - \psi_{\mathbf{x}} \|^{2} = 0$이 되어야한다.

$$ J = 0 = \left\langle p_{x}, \| \psi - \psi_{\mathbf{x}} \|^{2} \right\rangle \implies \| \psi - \psi_{\mathbf{x}} \|^{2} = 0 \implies \psi = \psi_{\mathbf{x}} $$

이는 다시 다음을 함의한다.

$$ \psi_{\mathbf{x}} = \psi \implies \log p_{\mathbf{x}}(\cdot) = \log p( \cdot; \boldsymbol{\theta}) + \text{constant} $$

이때 $p$, $p_{\mathbf{x}}$는 확률밀도함수이므로 적분해서 $1$이 되어야하고, 이는 상수가 $0$임을 의미한다. 따라서 $p_{\mathbf{x}}(\cdot) = p( \cdot; \boldsymbol{\theta})$이다. 가정에 의해 $\boldsymbol{\theta} = \boldsymbol{\theta}^{\ast}$이다.

($\impliedby$)

자명하다.