logo

ディープラーニングの数学的基礎、ユニバーサル近似定理の証明 📂機械学習

ディープラーニングの数学的基礎、ユニバーサル近似定理の証明

定理

$\sigma$が連続なシグモイド関数とすると、 $$ S := \left\{ G(x) = \sum_{k=1}^{N} \alpha_{k} \sigma \left( y_{k}^{T} x+ \theta_{k} \right) : y_{k} \in \mathbb{R}^{n} \land \alpha_{k} , \theta_{k} \in \mathbb{R} \land N \in \mathbb{N} \right\} $$ は$C\left( I_{n} \right)$で一様稠密である。つまり、あらゆる$f \in C \left( I_{n} \right)$と$\varepsilon > 0$に対して、次を満たす$G \in S$が存在する。 $$ \left\| G - f \right\| < \varepsilon $$


  • 次を満たす関数$\sigma : \mathbb{R} \to \mathbb{R}$をシグモイド関数という。 $$ \sigma (t) \to \begin{cases} 1 & \text{as } t \to + \infty \\ 0 & \text{as } t \to - \infty \end{cases} $$
  • $I_{n} := [0,1]^{n}$は$n$次元のユニットキューブであり、$n$個の単位閉区間$[0,1]$のデカルト積である。
  • $C \left( I_{n} \right)$は連続関数空間のクラスである。
  • $y^{T}$は、$y$の転置行列であり、$y^{T} x$は$x$と$y$の内積$\left< x, y \right>$と同じである。

ディープラーニングはなぜうまくいくのか?

Cybenkoの定理は、いわゆる汎用近似定理universal Approximate theoremとして知られ、ヒドゥンレイヤーが一つのディープラーニング、つまり、人工ニューラルネットワークがなぜ機能するのかについての理論的根拠となる重要な定理である。この定理は1989年にCybenkoによって証明され、2020年代に最先端(SOTA)を記録している多数のディープラーニング技術を間接的に支えている。これは逆に、現在のディープラーニング技術が信じられないほどのパフォーマンスを発揮しているにも関わらず、その理論的根拠は弱いことを意味している。

数式において、$x \in I_{n}$は入力データ、$y \in \mathbb{R}^{n}$は重みで、$\theta \in \mathbb{R}$はバイアスと見ることができる。したがって、シグモイド関数$\sigma$は活性化関数と考えることができるだろう。活性化関数のアイデア自体がしきい値の模倣であることを考えると、信号が伝達されるか否かは一種の区別―差別であり、測度論的に重要な差別関数に関する議論につながる。簡単に言えば、Cybenkoの定理とは、任意の$f$が適切な重みとバイアスで差別関数の有限な線形結合として近似できることを意味している。

機械学習の文脈では、$f$は私たちが本当に見つけたい関数、つまり、私たちが望むことをする関数である。その関数は、写真を入力として犬か猫かを判別するか、韓国語の文字列を受け取って英語に変換するか、さらに難しくて面白い関数である可能性がある。

Cybenkoの論文では、その後いくつかの定理がさらに証明されている。私たちが一般に考える分類問題や、近似しようとする関数に不連続性を許容するなどである。ここでは必ずしも取り上げないが、この投稿で紹介されたCybenkoの定理の証明を理解できれば、その結果を理解するのも難しくないだろう。

証明 1

戦略:長くて難しい補助定理1の証明補助定理2の証明を最初に理解する必要がある。これらの証明は関数解析学と測度論、そしてバナッハ空間に関する事前の知識を必要とするため、数学の学部生でさえ理解が難しいかもしれない。これらの補助定理が証明されれば、Cybenkoの定理自体はそれらを組み合わせるに過ぎない。連続シグモイド関数が測度論的に良い差別関数であることを示し、差別関数の線形結合が$f \in C \left( I_{n} \right)$を関数解析的に近似することができることを示せばよい。


  1. G. Cybenko. (1989). Approximation by Superpositions of a Sigmoidal Function p6. ↩︎