論文レビュー: スコアマッチング
概要
スコアマッチングscore matchingは2005年に発表されたAapo Hyvarinenの論文 [Estimation of Non-Normalized Statistical Models by Score Matching](https://www.jmlr.org/papers/volume6/hyvarinen05a/hyvarinen05a.pdf)で紹介された統計的手法であり、非正規化モデルnon-normalized modelを推定する際に正規化定数を考慮せずに済む方法である。
1. Introduction
多くの場合、確率モデルは正規化定数 $Z$を含む非正規化モデルで与えられる。例えば、母数が $\boldsymbol{\theta}$である確率密度関数 $p_{\boldsymbol{\theta}}$は次のように定義される。
$$ p(\boldsymbol{\xi}; \boldsymbol{\theta}) = \dfrac{1}{Z(\boldsymbol{\theta})} q(\boldsymbol{\xi}; \boldsymbol{\theta}) $$
ここで直面する問題は、 $q$は解析的によく知られているか、計算が簡単な形であるのに対し、 $Z(\boldsymbol{\theta}) = \int q(\boldsymbol{\xi}; \boldsymbol{\theta}) d \boldsymbol{\xi}$は計算が難しい場合が多いということである。特に $\boldsymbol{\theta}$が高次元ベクトルの場合、次元の呪いの問題を含めて計算が事実上不可能な場合もある。以前は非正規化モデルを推定する際にマルコフ連鎖モンテカルロ法がよく使われていたが、これは速度が遅く、他の方法は性能がやや劣る場合が多かった。
2. Estimation by Score Matching
提案する方法の核心は[スコア関数]score functionである。データの分布を近似するモデルの確率密度関数 $p(\boldsymbol{\xi}; \boldsymbol{\theta})$のスコア関数を $\psi(\boldsymbol{\xi}; \boldsymbol{\theta})$と表記し、次のように定義する。
$$ \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) = \begin{bmatrix} \psi_{1}(\boldsymbol{\xi}; \boldsymbol{\theta}) \\ \vdots \\ \psi_{n}(\boldsymbol{\xi}; \boldsymbol{\theta}) \end{bmatrix} := \begin{bmatrix} \dfrac{\partial \log p(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{1}} \\ \vdots \\ \dfrac{\partial \log p(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{n}} \end{bmatrix} = \nabla_{\boldsymbol{\xi}} \log p(\boldsymbol{\xi}; \boldsymbol{\theta}) $$
言い換えれば、スコア関数とは対数確率密度関数の勾配である。論文で提案する方法は正規化定数を無視できるため、スコア関数を再び次のように表記する。
$$ \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) = \nabla_{\boldsymbol{\xi}} \log q(\boldsymbol{\xi}; \boldsymbol{\theta}) $$
実際のデータ $\mathbf{x}$の分布に対するスコア関数は以下のように表記する。
$$ \psi_{\mathbf{x}}( \cdot ) = \nabla_{\boldsymbol{\xi}} \log p_{\mathbf{x}}( \cdot ) $$
論文ではデータのスコアとモデルのスコアの期待値の差が小さくなるように、次のように目的関数を設定する。
$$ \begin{equation} \begin{aligned} J(\boldsymbol{\theta}) &= \dfrac{1}{2} \int p_{\mathbf{x}}(\boldsymbol{\xi}) \left\| \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) - \psi_{\mathbf{x}}(\boldsymbol{\xi}) \right\|^{2} \mathrm{d}\boldsymbol{\xi} \\ &= \dfrac{1}{2} \int p_{\mathbf{x}}(\boldsymbol{\xi}) \left\| \nabla_{\boldsymbol{\xi}} \log q(\boldsymbol{\xi}; \boldsymbol{\theta}) - \nabla_{\boldsymbol{\xi}} \log p_{\mathbf{x}}(\boldsymbol{\xi}) \right\|^{2} \mathrm{d}\boldsymbol{\xi} \end{aligned} \end{equation} $$
したがって、スコアマッチングscore matchingとは次のように $\boldsymbol{\theta}$の推定量を求める方法である。
$$ \hat{\boldsymbol{\theta}} = \argmin\limits_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) $$
ところが $(1)$をみると実際問題が生じる。つまり、 $\psi_{\mathbf{x}}(\boldsymbol{\xi}) = \nabla_{\boldsymbol{\xi}} \log p_{\mathbf{x}}(\boldsymbol{\xi})$を計算するためには $p_{\mathbf{x}}$を知る必要があるということである。 $p_{\mathbf{x}}$を知らないためにモデルを $p(\boldsymbol{\xi}; \boldsymbol{\theta})$として近似するのだが、近似するためには $p_{\mathbf{x}}$を知っている必要があるというのは矛盾のように見える。実際、以下の定理から $(1)$から $\psi_{\mathbf{x}}$がない形に変えることができる。
$\textbf{Theorem 1}$ モデルのスコア関数 $\psi(\boldsymbol{\xi}; \boldsymbol{\theta})$が微分可能だと仮定する。すると $(1)$は次のように表現される。
$$ \begin{align*} J(\boldsymbol{\theta}) &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \sum\limits_{i=1}^{n} \left[ \partial_{i} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) + \dfrac{1}{2} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta})^{2} \right] \mathrm{d}\boldsymbol{\xi} + \text{constant} \tag{2} \\ &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \left[\sum\limits_{i=1}^{n} \partial_{i} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) + \dfrac{1}{2} \Braket{ \psi(\boldsymbol{\xi}; \boldsymbol{\theta}), \psi(\boldsymbol{\xi}; \boldsymbol{\theta})} \right] \mathrm{d}\boldsymbol{\xi} + \text{constant} \\ &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \left[\Delta \log q(\boldsymbol{\xi}; \boldsymbol{\theta}) + \dfrac{1}{2} \| \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) \|_{2}^{2} \right] \mathrm{d}\boldsymbol{\xi} + \text{constant} \end{align*} $$
ここで $\text{constant}$は $\boldsymbol{\theta}$に依存しない定数である。 $\psi_{i}$はスコアの $i$番目の成分で、 $\partial_{i} \psi_{i}$はスコア関数の $i$番目の成分の $i$番目の変数に対する偏微分である。
$$ \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) = \dfrac{\partial \log q(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{i}} $$ $$ \partial_{i} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) = \dfrac{\partial \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{i}} = \dfrac{\partial^{2} \log q(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{i}^{2}} $$
証明は以下のAppendixを参照する。括弧内の最初の項は実際に $\sum$としてまとめると確率密度関数 $q$のラプラシアンと同じである。
$$ \Delta q = \nabla^{2} \log q = \sum\limits_{i=1}^{n} \dfrac{\partial^{2} \log q}{\partial \xi_{i}^{2}} $$
実際には有限個のデータしか扱えないため、 $T$個の標本 $\mathbf{x}(1), \dots, \mathbf{x}(T)$が与えられた場合、 $(2)$の標本に対する数式は以下のようになる。
$$ \tilde{J}(\boldsymbol{\theta}) = \dfrac{1}{T} \sum\limits_{t=1}^{T} \sum\limits_{i=1}^{n} \left[ \partial_{i} \psi_{i}(\mathbf{x}(t); \boldsymbol{\theta}) + \dfrac{1}{2} \psi_{i}(\mathbf{x}(t); \boldsymbol{\theta})^{2} \right] + \text{constant} $$
続く次の定理から $(2)$を最適化することが実際にモデルを推定するのに十分であることがわかる。
$\textbf{Theorem 2}$ ある一意の $\boldsymbol{\theta}^{\ast}$に対して $p_{\mathbf{x}}(\cdot) = p(\cdot; \boldsymbol{\theta}^{\ast})$が成立すると仮定する。そして $q(\boldsymbol{\xi}; \boldsymbol{\theta}) > 0$であると仮定する。すると次が成立する。
$$ J(\boldsymbol{\theta}) = 0 \iff \boldsymbol{\theta} = \boldsymbol{\theta}^{\ast} $$
$\textbf{Corollary 3}$ 前述の定理の仮定の下で、 $\tilde{J}$を最小化して得られたスコアマッチング推定量は一致推定量である。すなわち、標本の数が無限大に増加するとき、その推定量は真の値 $\boldsymbol{\theta}^{\ast}$に確率収束し、それは最適化アルゴリズムが大域的最小値を見つけることができると仮定した場合に成立する。
標本の数が増加すると $\tilde{J}$が $J$に収束するため、大数の法則により $\text{Corollary}$が成立する。
3. Examples
3.1 Multivariate Gaussian Density
非常に単純な例として、多変量正規分布を考えてみよう。
$$ p(\mathbf{x}; \mathbf{M}, \boldsymbol{\mu}) = \dfrac{1}{Z(\mathbf{M}, \boldsymbol{\mu} )} \exp \left( -\dfrac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^{\mathsf{T}} \mathbf{M} (\mathbf{x} - \boldsymbol{\mu}) \right) $$
ここで $\mathbf{M} \in \mathbb{R}^{n \times n}$は共分散行列の逆行列で正定値であり、対称行列である。 $\boldsymbol{\mu} \in \mathbb{R}^{n}$は平均ベクトルである。もちろんこの場合には $Z(\mathbf{M}, \boldsymbol{\mu}) = ((2\pi)^{n} \det \mathbf{M})^{1/2}$であることがよく知られているが、単純な例として扱ってみよう。
3.1.1 Estimation
この場合、 $q$, $\psi$, $\partial_{i} \psi$はそれぞれ次のようになる。
$$ q(\mathbf{x}) = \exp \left( -\dfrac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^{\mathsf{T}} \mathbf{M} (\mathbf{x} - \boldsymbol{\mu}) \right) $$
対称行列 $\mathbf{R}$に対して、二次形式の勾配は $\nabla_{\mathbf{x}} (\mathbf{x}^{\mathsf{T}} \mathbf{R} \mathbf{x}) = 2 \mathbf{R} \mathbf{x}$となるので、
$$ \psi(\mathbf{x}; \mathbf{M}, \boldsymbol{\mu}) = -\mathbf{M} (\mathbf{x} - \boldsymbol{\mu}) = - \begin{bmatrix} \sum\limits_{j}m_{1j}(x_{j}-\mu_{j}) \\ \vdots \\[1em] \sum\limits_{j}m_{nj}(x_{j}-\mu_{j})\end{bmatrix} $$
ここで $\mathbf{M} = [m_{ij}]$である。 $\partial_{i} \psi_{i} = \dfrac{\partial \psi_{i}}{\partial x_{i}}$は次のようになる。
$$ \partial_{i} \psi_{i}(\mathbf{x}; \mathbf{M}, \boldsymbol{\mu}) = -m_{ii} $$
したがって $\tilde{J}$は次のようになる。 $\sum_{i} \psi_{i} = \braket{\psi, \psi} = \psi^{\mathsf{T}} \psi$であるため、
$$ \begin{align*} \tilde{J}(\mathbf{M}, \boldsymbol{\mu}) &= \dfrac{1}{T} \sum\limits_{t=1}^{T} \left[ \sum\limits_{i} -m_{ii} + \dfrac{1}{2}\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)^{\mathsf{T}} \mathbf{M}^{\mathsf{T}} \mathbf{M} \left( \mathbf{x}(t) - \boldsymbol{\mu} \right) \right] \\ &= \dfrac{1}{T} \sum\limits_{t=1}^{T} \left[ - \Tr (\mathbf{M}) + \dfrac{1}{2}\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)^{\mathsf{T}} \mathbf{M}^{\mathsf{T}} \mathbf{M} \left( \mathbf{x}(t) - \boldsymbol{\mu} \right) \right] \end{align*} $$
ここで $\Tr$はトレースである。上記の式を最小化する $\boldsymbol{\mu}$を見つけるために、勾配を計算してみると、再び二次行列の勾配公式により、
$$ \begin{align*} \nabla_{\boldsymbol{\mu}} \tilde{J} &= \dfrac{1}{T} \sum\limits_{t=1}^{T} \left[ \mathbf{M}^{\mathsf{T}} \mathbf{M} \left( \boldsymbol{\mu} - \mathbf{x}(t) \right) \right] \\ &= \dfrac{1}{T} \sum\limits_{t=1}^{T} \mathbf{M}^{\mathsf{T}} \mathbf{M} \boldsymbol{\mu} - \dfrac{1}{T} \sum\limits_{t=1}^{T} \mathbf{M}^{\mathsf{T}} \mathbf{M} \mathbf{x}(t) \\ &= \mathbf{M}^{\mathsf{T}} \mathbf{M} \boldsymbol{\mu} - \mathbf{M}^{\mathsf{T}} \mathbf{M} \dfrac{1}{T} \sum\limits_{t=1}^{T} \mathbf{x}(t) \\ \end{align*} $$
したがって $\nabla_{\boldsymbol{\mu}} \tilde{J} = \mathbf{0}$を満たす $\boldsymbol{\mu}$は標本平均である。
$$ \boldsymbol{\mu}^{\ast} = \dfrac{1}{T} \sum\limits_{t=1}^{T} \mathbf{x}(t) $$
$$ \nabla_{\mathbf{X}} (\Tr \mathbf{X}) = I $$
$$ \nabla_{\mathbf{X}} (\mathbf{a}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{a}) = 2\mathbf{X}\mathbf{a}\mathbf{a}^{\mathsf{T}} $$
上記の公式に従って $\nabla_{\mathbf{M}} \tilde{J}$を計算すると、(論文にある式と結果的に同じである。以下の形式はより簡単に整理された表現である。)
$$ \begin{align*} \nabla_{\mathbf{M}} \tilde{J} &= \dfrac{1}{T} \sum\limits_{t=1}^{T} [-I + \mathbf{M}\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)^{\mathsf{T}}] \\ &= -I + \mathbf{M} \sum\limits_{t=1}^{T}\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)^{\mathsf{T}} \end{align*} $$
上記の式が $\mathbf{0}$になるためには、 $\mathbf{M}$が標本共分散行列 $\sum\limits_{t=1}^{T}\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)\left( \mathbf{x}(t) - \boldsymbol{\mu} \right)^{\mathsf{T}}$の逆行列でなければならない。
この結果からわかるように、スコアマッチングは最大尤度推定と同じ推定量を提供する。
Appendix A. Theorem 1の証明
$(1)$のノルム $\| \cdot \|^{2} = \Braket{\cdot, \cdot}$を展開すると次のようになる。
$$ \begin{align*} J(\boldsymbol{\theta}) &= \dfrac{1}{2} \int p_{\mathbf{x}}(\boldsymbol{\xi}) \left\| \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) - \psi_{\mathbf{x}}(\boldsymbol{\xi}) \right\|^{2} \mathrm{d}\boldsymbol{\xi} \\ &= \dfrac{1}{2} \int p_{\mathbf{x}}(\boldsymbol{\xi}) \Braket{ \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) - \psi_{\mathbf{x}}(\boldsymbol{\xi}), \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) - \psi_{\mathbf{x}}(\boldsymbol{\xi})} \mathrm{d}\boldsymbol{\xi} \\ &= \dfrac{1}{2} \int p_{\mathbf{x}}(\boldsymbol{\xi}) \Big[ \Braket{ \psi(\boldsymbol{\xi}; \boldsymbol{\theta}), \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) } + \Braket{\psi_{\mathbf{x}}(\boldsymbol{\xi}), \psi_{\mathbf{x}}(\boldsymbol{\xi})} - 2\Braket{\psi(\boldsymbol{\xi}; \boldsymbol{\theta}), \psi_{\mathbf{x}}(\boldsymbol{\xi})} \Big] \mathrm{d}\boldsymbol{\xi} \\ &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \Big[ \dfrac{1}{2}\| \psi(\boldsymbol{\xi}; \boldsymbol{\theta})\|^{2} + \dfrac{1}{2}\| \psi_{\mathbf{x}}(\boldsymbol{\xi})\|^{2} - \Braket{\psi(\boldsymbol{\xi}; \boldsymbol{\theta}), \psi_{\mathbf{x}}(\boldsymbol{\xi})} \Big] \mathrm{d}\boldsymbol{\xi} \end{align*} $$
三番目の項についての積分は以下の通りである。
$$ -\sum\limits_{i} \int p_{\mathbf{x}}(\boldsymbol{\xi}) \psi_{\mathbf{x}, i}(\boldsymbol{\xi}) \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\boldsymbol{\xi} $$
各 $i$に対する積分は次のように書き換えることができる。対数関数の微分法により、
$$ \begin{align*} -\int p_{\mathbf{x}}(\boldsymbol{\xi}) \psi_{\mathbf{x}, i}(\boldsymbol{\xi}) \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\boldsymbol{\xi} &= -\int p_{\mathbf{x}}(\boldsymbol{\xi}) \dfrac{\partial \log p_{\mathbf{x}}(\boldsymbol{\xi})}{\partial \xi_{i}} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\boldsymbol{\xi} \\ &= -\int p_{\mathbf{x}}(\boldsymbol{\xi})\left( \dfrac{1}{p_{\mathbf{x}}(\boldsymbol{\xi})} \dfrac{\partial p_{\mathbf{x}}(\boldsymbol{\xi})}{\partial \xi_{i}} \right)\psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\boldsymbol{\xi} \\ &= -\int \dfrac{\partial p_{\mathbf{x}}(\boldsymbol{\xi})}{\partial \xi_{i}} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\boldsymbol{\xi} \\ \end{align*} $$
これは再び部分積分法により次のように書き換えることができる。
$$ \begin{align*} & -\int \dfrac{\partial p_{\mathbf{x}}(\boldsymbol{\xi})}{\partial \xi_{i}} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\boldsymbol{\xi} \\ &= -\int \left( \int \dfrac{\partial p_{\mathbf{x}}(\boldsymbol{\xi})}{\partial \xi_{i}} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\xi_{1} \right) \mathrm{d}(\xi_{2},\dots,\xi_{n}) \\ &= -\int \left( \left[p_{\mathbf{x}}(\boldsymbol{\xi}) \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \right]_{\xi_{1}=-\infty}^{\infty} - \int p_{\mathbf{x}}(\boldsymbol{\xi}) \dfrac{\partial \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{i}} \mathrm{d}\xi_{1} \right) \mathrm{d}(\xi_{2},\dots,\xi_{n}) \\ &= \int \int p_{\mathbf{x}}(\boldsymbol{\xi}) \dfrac{\partial \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{i}} \mathrm{d}\xi_{1}\mathrm{d}(\xi_{2},\dots,\xi_{n}) \\ &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \dfrac{\partial \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta})}{\partial \xi_{i}} \mathrm{d}\boldsymbol{\xi} = \int p_{\mathbf{x}}(\boldsymbol{\xi}) \partial_{i} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \mathrm{d}\boldsymbol{\xi} \end{align*} $$
ここで $p_{\mathbf{x}}$は確率密度関数であるため積分可能であり、したがって $\lim\limits_{\boldsymbol{\xi} \to \pm \infty}p_{\mathbf{x}}(\boldsymbol{\xi}) = 0$であるため括弧内の定積分値は $0$である。これを元の式に代入して整理すると次を得る。
$$ \begin{align*} J(\boldsymbol{\theta}) &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \Big[ \dfrac{1}{2}\| \psi(\boldsymbol{\xi}; \boldsymbol{\theta})\|^{2} + \dfrac{1}{2}\| \psi_{\mathbf{x}}(\boldsymbol{\xi})\|^{2} - \Braket{\psi(\boldsymbol{\xi}; \boldsymbol{\theta}), \psi_{\mathbf{x}}(\boldsymbol{\xi})} \Big] \mathrm{d}\boldsymbol{\xi} \\ &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \Big[ \dfrac{1}{2}\| \psi(\boldsymbol{\xi}; \boldsymbol{\theta})\|^{2} + \sum\limits_{i}\partial_{i} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \Big] \mathrm{d}\boldsymbol{\xi} + \dfrac{1}{2}\int p_{\mathbf{x}}(\boldsymbol{\xi}) \| \psi_{\mathbf{x}}(\boldsymbol{\xi})\|^{2} \mathrm{d}\boldsymbol{\xi} \\ &= \int p_{\mathbf{x}}(\boldsymbol{\xi}) \Big[ \dfrac{1}{2}\| \psi(\boldsymbol{\xi}; \boldsymbol{\theta})\|^{2} + \sum\limits_{i}\partial_{i} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \Big] \mathrm{d}\boldsymbol{\xi} + \dfrac{1}{2}\int p_{\mathbf{x}}(\boldsymbol{\xi}) \| \psi_{\mathbf{x}}(\boldsymbol{\xi})\|^{2} \mathrm{d}\boldsymbol{\xi} \\ \end{align*} $$
最後の項は $\boldsymbol{\theta}$に依存しない定数項である。したがって次を得る。
$$ J(\boldsymbol{\theta}) = \int p_{\mathbf{x}}(\boldsymbol{\xi}) \sum\limits_{i}\Big[ \frac{1}{2} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta})^{2} + \partial_{i} \psi_{i}(\boldsymbol{\xi}; \boldsymbol{\theta}) \Big] \mathrm{d}\boldsymbol{\xi} + \text{constant} $$
■
Appendix B. Theorem 2の証明
$$ J(\boldsymbol{\theta}) = 0 \iff \boldsymbol{\theta} = \boldsymbol{\theta}^{\ast} $$
($\implies$)
$J(\boldsymbol{\theta}) = 0$と仮定する。
$$ J = \int p_{x}(\boldsymbol{\xi}) \| \psi(\boldsymbol{\xi}; \boldsymbol{\theta}) - \psi_{\mathbf{x}}(\boldsymbol{\xi}) \|^{2} \mathrm{d}\boldsymbol{\xi} = 0 = \left\langle p_{x}, \| \psi - \psi_{\mathbf{x}} \|^{2} \right\rangle $$
すべての $\boldsymbol{\xi}$に対して $q \gt 0$であるため $p(\boldsymbol{\xi}) \gt 0$ $\forall \boldsymbol{\xi}$であり、 $\| \psi - \psi_{\mathbf{x}} \|^{2} \ge 0$であるので、すべての $\boldsymbol{\xi}$に対し $\| \psi - \psi_{\mathbf{x}} \|^{2} = 0$でなければならない。
$$ J = 0 = \left\langle p_{x}, \| \psi - \psi_{\mathbf{x}} \|^{2} \right\rangle \implies \| \psi - \psi_{\mathbf{x}} \|^{2} = 0 \implies \psi = \psi_{\mathbf{x}} $$
これは再び次をことを含意する。
$$ \psi_{\mathbf{x}} = \psi \implies \log p_{\mathbf{x}}(\cdot) = \log p( \cdot; \boldsymbol{\theta}) + \text{constant} $$
このとき $p$, $p_{\mathbf{x}}$は確率密度関数であるため積分すると $1$でなければならず、これは定数が $0$であることを意味する。したがって $p_{\mathbf{x}}(\cdot) = p( \cdot; \boldsymbol{\theta})$である。仮定により $\boldsymbol{\theta} = \boldsymbol{\theta}^{\ast}$である。
■
($\impliedby$)
自明である。
■