딥러닝의 수학적 근거, 시벤코 정리 증명
定理
$\sigma$ が連続シグモイド関数だとすると $$ S := \left\{ G(x) = \sum_{k=1}^{N} \alpha_{k} \sigma \left( y_{k}^{T} x+ \theta_{k} \right) : y_{k} \in \mathbb{R}^{n} \land \alpha_{k} , \theta_{k} \in \mathbb{R} \land N \in \mathbb{N} \right\} $$ は $C\left( I_{n} \right)$ において均等密である。すなわち、すべての $f \in C \left( I_{n} \right)$ と $\varepsilon > 0$ に対して次を満足する $G \in S$ が存在する。 $$ \left\| G - f \right\| < \varepsilon $$
- 次を満足する関数 $\sigma : \mathbb{R} \to \mathbb{R}$ をシグモイド関数と呼ぶ。 $$ \sigma (t) \to \begin{cases} 1 & \text{as } t \to + \infty \\ 0 & \text{as } t \to - \infty \end{cases} $$
- $I_{n} := [0,1]^{n}$ は $n$次元ユニットキューブであり、$n$ 個の単位閉区間 $[0,1]$ にデカルト積をとったものである。
- $C \left( I_{n} \right)$ は連続関数空間のクラスである。
- $y^{T}$ は $y$ の転置行列であり、$y^{T} x$ は $x$ と $y$ の内積 $\left< x, y \right>$ と等しい。
ディープラーニングはなぜうまくいくのか?
シベンコの定理は、いわゆる普遍近似定理universal Approximate theoremとして知られる非常に重要な定理であり、隠れ層が一つのディープラーニング、つまり人工神経網がなぜ機能するのかに対する理論的根拠となる。この定理は1989年にシベンコによって証明され、2020年代には最先端(SOTA, State Of The Art)を記録している多くのディープラーニング技法を間接的に支えている。逆に言えば、今のディープラーニング技法が驚異的なパフォーマンスを発揮しているにもかかわらず、その理論的根拠はまだ弱いと言える。
数式で $x \in I_{n}$ は入力データ、$y \in \mathbb{R}^{n}$ は重み、$\theta \in \mathbb{R}$ はバイアスと見なすことができる。それならばシグモイド関数 $\sigma$ は他ならぬ活性化関数と見なすことができるだろう。活性化関数のアイディア自体が閾値の模倣であるという点を考えれば、信号が伝達するか否かというのは一種の区別―差別discriminationであり、測度論的に重要な差別関数に関する議論へと繋がる。シベンコの定理を平易に説明すると、我々が望むどのような $f$ であれ、適切な重みとバイアスを探し、差別関数の有限の線形結合で近似的に表現できるということだ。
- これはサポートベクターマシンと表現者定理の関係と類似する。
機械学習の文脈では $f$ は我々が真に見つけたい関数、つまり我々が望む仕事をする関数である。その関数は写真を入力として受け取り、犬か猫かを識別したり、韓国語の文字列を受け取って英語に変換したり、もっと難しくて不思議な関数であるかもしれない。
シベンコの論文ではその後、いくつかの定理がさらに証明される。一般に考えられる分類問題や、近似しようとする関数に不連続性を許す場合などである。これについては特に触れないが、このポストで紹介するシベンコの定理の証明を理解することができれば、その結論を理解するのも難しくないだろう。
証明 1
戦略: 長くて難しい補助定理1の証明と補助定理2の証明をまず理解する必要がある。これらの補助定理の証明には関数解析学と測度論、バナッハ空間に関する事前知識が必要であり、数学科学部レベルの専攻者でも証明の理解が難しいかもしれない。補助定理だけ証明できれば、シベンコの定理自体はその二つを総括するだけである。連続シグモイド関数が測度論的に良い性質を持つ差別関数であることを示し、差別関数の線形結合が $f \in C \left( I_{n} \right)$ に近似できることを関数解析的に示せばよい。
補助定理1: シグモイド関数の差別性有界可測シグモイド関数は差別関数である。
シグモイド関数が連続であれば可測であり、その定義に従い有界でなければならないので、即ち差別関数である。
補助定理2: 差別関数の均等密性$\sigma$ が連続差別関数であるとする $$ \displaystyle S := \left\{ G(x) = \sum_{k=1}^{N} \alpha_{k} \sigma \left( y_{k}^{T} x+ \theta_{k} \right) : y_{k} \in \mathbb{R}^{n} \land \alpha_{k} , \theta_{k} \in \mathbb{R} \land N \in \mathbb{N} \right\} $$ は $C\left( I_{n} \right)$ において均等密である。すなわち、すべての $f \in C \left( I_{n} \right)$ と $\varepsilon > 0$ に対して次を満足する $G \in S$ が存在する。 $$ \left\| G - f \right\| < \varepsilon $$
連続シグモイド関数が差別関数であるため、差別関数の性質に従い $\overline{S} = C\left( I_{n} \right)$ である。
■
G. Cybenko. (1989). Approximation by Superpositions of a Sigmoidal Function p6. ↩︎