シグモイド関数とは?
📂機械学習シグモイド関数とは?
定義
次のを満たす関数σ:R→Rをシグモイダル関数sigmoidal functionと呼ぶ。
σ(t)→{10as t→+∞as t→−∞
定義についての説明
シグモイダル関数の定義で重要なのは、0なのか1なのかということではなく、正または負の無限大に向かうとき、定数に収束することが重要だ。無限ではないところでどんな値を取るかはそれほど重要ではない。この意味で、ロジスティック関数はもちろんシグモイド関数もシグモイダル関数であるだろう。
シグモイダル関数の最も代表的な用途は、ディープラーニングでの応用である。一部の読者は、ディープラーニングでは2010年代後半以降、ReLUやMishのような活性化関数が優れたパフォーマンスを示していることから、シグモイダル関数を過小評価するかもしれない。しかし、シグモイダル関数が数学的、コンピュータ科学的にどのように重要であるかを尋ねられたら、ただ0か1に収束する単純な形でさえも、人工ニューラルネットワークという技術の可能性を理論的に保証できるから重要と答えるだろう。シグモイダル関数についての探究は、普遍的近似定理という偉大な結果につながり、これは疑いなく非常に重要な結果である。
定理
シグモイダル関数の特徴:有界 可測シグモイダル関数は微分可能関数である。
定理についての説明
一般に使用されるシグモイダル関数が微分可能であることが重要な理由は、微分可能関数の概念がその用途に比べて少し難しいからである。しかし、上記の定理により、微分可能関数について知らなくても、実際にプログラミングを通じて実装できる具体的な例を得ることができる。
証明 [^1]
微分可能関数の定義
すべてのy∈Rnとθ∈Rとあるμ∈M(In)に対して、次のを満たすとき、関数σ:R→Rを微分可能関数という。
∫Inσ(yTx+θ)dμ(x)=0⟹μ=0
- M(In)は、署名 有限 正則 ボレル測度の集合である。
主張
微分可能関数の定義に従って、シグモイダル関数σが
∫Inσ(yTx+θ)dμ(x)=0
の場合、μ=0を証明すればよい。
Part 1. σλとγの定義
任意のx∈Inとy∈Rnとθ,φ∈Rに対して、関数σλ:In→Rを以下のように定義しよう。
σλ(x):=σ(λ(yTx+θ)+φ)
すると、λが変わると
σλ⎩⎨⎧→1→0=σ(φ)for yTx+θ>0for yTx+θ<0for yTx+θ=0as λ→∞as λ→∞for all λ∈R
となるので、新しい関数γ:In→Rを
γ(x):=⎩⎨⎧10σ(φ)for yTx+θ>0for yTx+θ<0for yTx+θ=0
のように定義すると、λ→∞のときσλはγに各点収束する。
Part 2. μが符号測度でない場合
ここで、全域InをハイパープレーンHy,θ0を基準にして、次のように3つの部分に分けよう。
Hy,θ+:={x∈Rn:yTx+θ>0}Hy,θ0:={x∈Rn:yTx+θ=0}Hy,θ−:={x∈Rn:yTx+θ<0}
∀y∈Rnかつ∀θ∈Rであれば、ルベーグ積分内では、σ(yTx+θ)でもσ(λ(yTx+θ)+φ)でも本質的に同じであり、支配収束定理によってλ→∞lim⋅と∫In⋅dμの順序を変更できるので、すべてのφ∈Rに対して
0========∫Inσ(yTx+θ)dμ(x)λ→∞lim∫Inσ(yTx+θ)dμ(x)λ→∞lim∫Inσ(λ(yTx+θ)+φ)dμ(x)∫Inλ→∞limσλ(x)dμ(x)∫Inγ(x)dμ(x)∫Hy,θ+γ(x)dμ(x)+∫Hy,θ0γ(x)dμ(x)+∫Hy,θ−γ(x)dμ(x)∫Hy,θ+1dμ(x)+∫Hy,θ0σ(φ)dμ(x)+∫Hy,θ−0dμ(x)μ(Hy,θ+)+σ(φ)μ(Hy,θ0)
μが符号測度でなければ、ハイパープレーンHy,θ0は自然にInで定義された測度μに対してμ(Hy,θ0)=0でなければならない。これはすべてのy,θに対して成立するので、常にμ(Hy,θ+)=0であり、シグモイダル関数σは微分可能関数である。しかし、μが符号測度である場合、μ(Hy,θ0)=0が保証されないので、別の証明が必要である。数学的な一般性をある程度犠牲にして、人工ニューラルネットワークへの応用だけを知りたい場合は、ここで証明を終わらせても大きな問題はない。
Part 3. μが符号測度の場合
yを固定し、有界可測関数h:R→Rに対して、次のような線形汎函数F∈(L∞(R))∗を定義しよう。
F(h):=∫Inh(yTx)dμ(x)
Fはルベーグ積分によって定義されたので線形性が保証され、μ∈M(In)が有限符号測度であるため、Fも有界となり、L∞(R)に属する。さて、hがあるμ∈M(In)に対して次を満たす[θ,∞)に対する指示関数であるとしよう。
F(h)===∫Inh(yTx)dμ(x)μ(Hy,−θ+)+μ(Hy,−θ0)0
同様に、hが(θ,∞)に対する指示関数ならばF(h)=0であり、Fの線形性により、すべての区間の指示関数hについてもF(h)=0である。したがって、すべての単純関数hについてもF(h)=0であり、単純関数の集合はL∞(R)で稠密なのでF=0である。言い換えると、すべての有界可測関数h∈L∞(R)についてF(h)=0である。我々はσもまた有界可測シグモイダル関数と仮定したのでσ∈L∞(R)であり、
F(σ)=∫Inσ(yTx)dμ(x)=∫Inσ(yTx+θ)dμ(x)=0
である。この条件でμ=0であることを示すだけでよい。
Part 4.
L∞(R)は有界可測関数のベクトル空間なので、m∈Rnに対して、有界可測関数s,c:In→Rを
s(x):=sin(mTx)c(x):=cos(mTx)
のように定義すると、ベクトル空間は加法とスカラー乗法に対して閉じているので、c+isもまた有界可測関数である。しかし、すべての有界可測関数についてF=0だったので、オイラーの公式により
0===F(c+is)∫In[cos(mTx)+isin(mTx)]dμ(x)∫Inexp(imTx)dμ(x)
フーリエ変換の定義:
次のような変換Fをフーリエ変換という。
Ff(ξ):=∫f(x)e−iξxdx
フーリエ変換の定義とルベーグ積分の性質により
0=F(c+is)=Fμ
である。これはμのフーリエ変換が0である