logo

シグモイド関数とは? 📂機械学習

シグモイド関数とは?

定義

次のを満たす関数σ:RR\sigma : \mathbb{R} \to \mathbb{R}シグモイダル関数sigmoidal functionと呼ぶ。 σ(t){1as t+0as t \sigma (t) \to \begin{cases} 1 & \text{as } t \to + \infty \\ 0 & \text{as } t \to - \infty \end{cases}

定義についての説明

シグモイダル関数の定義で重要なのは、00なのか11なのかということではなく、正または負の無限大に向かうとき、定数に収束することが重要だ。無限ではないところでどんな値を取るかはそれほど重要ではない。この意味で、ロジスティック関数はもちろんシグモイド関数もシグモイダル関数であるだろう。

シグモイダル関数の最も代表的な用途は、ディープラーニングでの応用である。一部の読者は、ディープラーニングでは2010年代後半以降、ReLUやMishのような活性化関数が優れたパフォーマンスを示していることから、シグモイダル関数を過小評価するかもしれない。しかし、シグモイダル関数が数学的、コンピュータ科学的にどのように重要であるかを尋ねられたら、ただ0011に収束する単純な形でさえも、人工ニューラルネットワークという技術の可能性を理論的に保証できるから重要と答えるだろう。シグモイダル関数についての探究は、普遍的近似定理という偉大な結果につながり、これは疑いなく非常に重要な結果である。

定理

シグモイダル関数の特徴:有界 可測シグモイダル関数は微分可能関数である。

定理についての説明

一般に使用されるシグモイダル関数が微分可能であることが重要な理由は、微分可能関数の概念がその用途に比べて少し難しいからである。しかし、上記の定理により、微分可能関数について知らなくても、実際にプログラミングを通じて実装できる具体的な例を得ることができる。

証明 [^1]

微分可能関数の定義 すべてのyRny \in \mathbb{R}^{n}θR\theta \in \mathbb{R}とあるμM(In)\mu \in M \left( I_{n} \right)に対して、次のを満たすとき、関数σ:RR\sigma : \mathbb{R} \to \mathbb{R}を微分可能関数という。 Inσ(yTx+θ)dμ(x)=0    μ=0 \int_{I_{n}} \sigma \left( y^{T} x + \theta \right) d \mu (x) = 0 \implies \mu =0


主張

微分可能関数の定義に従って、シグモイダル関数σ\sigmaInσ(yTx+θ)dμ(x)=0 \int_{I_{n}} \sigma \left( y^{T} x + \theta \right) d \mu (x) = 0 の場合、μ=0\mu =0を証明すればよい。


Part 1. σλ\sigma_{{\lambda}}γ\gammaの定義

任意のxInx \in I_{n}yRny \in \mathbb{R}^{n}θ,φR\theta , \varphi \in \mathbb{R}に対して、関数σλ:InR\sigma_{\lambda} : I_{n} \to \mathbb{R}を以下のように定義しよう。 σλ(x):=σ(λ(yTx+θ)+φ) \sigma_{\lambda} (x) := \sigma \left( \lambda \left( y^{T} x + \theta \right) + \varphi \right) すると、λ\lambdaが変わると σλ{1for yTx+θ>0as λ0for yTx+θ<0as λ=σ(φ)for yTx+θ=0for all λR \sigma_{\lambda} \begin{cases} \to 1 & \text{for } y^{T} x + \theta > 0 & \text{as } \lambda \to \infty \\ \to 0 & \text{for } y^{T} x + \theta < 0 & \text{as } \lambda \to \infty \\ = \sigma \left( \varphi \right) & \text{for } y^{T} x + \theta = 0 & \text{for all } \lambda \in \mathbb{R} \end{cases} となるので、新しい関数γ:InR\gamma : I_{n} \to \mathbb{R}γ(x):={1for yTx+θ>00for yTx+θ<0σ(φ)for yTx+θ=0 \gamma (x) := \begin{cases} 1 & \text{for } y^{T} x + \theta > 0 \\ 0 & \text{for } y^{T} x + \theta < 0 \\ \sigma \left( \varphi \right) & \text{for } y^{T} x + \theta = 0 \end{cases} のように定義すると、λ\lambda \to \inftyのときσλ\sigma_{\lambda}γ\gamma各点収束する。


Part 2. μ\muが符号測度でない場合

ここで、全域InI_{n}をハイパープレーンHy,θ0H^{0}_{y, \theta}を基準にして、次のように3つの部分に分けよう。 Hy,θ+:={xRn:yTx+θ>0}Hy,θ0:={xRn:yTx+θ=0}Hy,θ:={xRn:yTx+θ<0} H^{+}_{y, \theta} := \left\{ x \in \mathbb{R}^{n} : y^{T} x + \theta > 0 \right\} \\ H^{0}_{y, \theta} := \left\{ x \in \mathbb{R}^{n} : y^{T} x + \theta = 0 \right\} \\ H^{-}_{y, \theta} := \left\{ x \in \mathbb{R}^{n} : y^{T} x + \theta < 0 \right\} yRn\forall y \in \mathbb{R}^{n}かつθR\forall \theta \in \mathbb{R}であれば、ルベーグ積分内では、σ(yTx+θ)\sigma \left( y^{T} x + \theta \right)でもσ(λ(yTx+θ)+φ)\sigma \left( \lambda \left( y^{T} x + \theta \right) + \varphi \right)でも本質的に同じであり、支配収束定理によってlimλ\displaystyle \lim_{\lambda \to \infty} \cdotIndμ\displaystyle \int_{I_{n}} \cdot d \muの順序を変更できるので、すべてのφR\varphi \in \mathbb{R}に対して 0=Inσ(yTx+θ)dμ(x)=limλInσ(yTx+θ)dμ(x)=limλInσ(λ(yTx+θ)+φ)dμ(x)=Inlimλσλ(x)dμ(x)=Inγ(x)dμ(x)=Hy,θ+γ(x)dμ(x)+Hy,θ0γ(x)dμ(x)+Hy,θγ(x)dμ(x)=Hy,θ+1dμ(x)+Hy,θ0σ(φ)dμ(x)+Hy,θ0dμ(x)=μ(Hy,θ+)+σ(φ)μ(Hy,θ0) \begin{align*} 0 =& \int_{I_{n}} \sigma \left( y^{T} x + \theta \right) d \mu (x) \\ =& \lim_{\lambda \to \infty} \int_{I_{n}} \sigma \left( y^{T} x + \theta \right) d \mu (x) \\ =& \lim_{\lambda \to \infty} \int_{I_{n}} \sigma \left( \lambda \left( y^{T} x + \theta \right) + \varphi \right) d \mu (x) \\ =& \int_{I_{n}} \lim_{\lambda \to \infty} \sigma_{\lambda} \left( x \right) d \mu (x) \\ =& \int_{I_{n}} \gamma (x) d \mu (x) \\ =& \int_{H^{+}_{y, \theta}} \gamma (x) d \mu (x) + \int_{H^{0}_{y, \theta}} \gamma (x) d \mu (x) + \int_{H^{-}_{y, \theta}} \gamma (x) d \mu (x) \\ =& \int_{H^{+}_{y, \theta}} 1 d \mu (x) + \int_{H^{0}_{y, \theta}} \sigma (\varphi) d \mu (x) + \int_{H^{-}_{y, \theta}} 0 d \mu (x) \\ =& \mu \left( H^{+}_{y, \theta} \right) + \sigma (\varphi) \mu \left( H^{0}_{y, \theta} \right) \end{align*} μ\muが符号測度でなければ、ハイパープレーンHy,θ0H^{0}_{y, \theta}は自然にInI_{n}で定義された測度μ\muに対してμ(Hy,θ0)=0\mu \left(H^{0}_{y, \theta} \right) = 0でなければならない。これはすべてのy,θy,\thetaに対して成立するので、常にμ(Hy,θ+)=0\mu \left( H^{+}_{y, \theta} \right) = 0であり、シグモイダル関数σ\sigmaは微分可能関数である。しかし、μ\muが符号測度である場合、μ(Hy,θ0)=0\mu \left(H^{0}_{y, \theta}\right) = 0が保証されないので、別の証明が必要である。数学的な一般性をある程度犠牲にして、人工ニューラルネットワークへの応用だけを知りたい場合は、ここで証明を終わらせても大きな問題はない。


Part 3. μ\muが符号測度の場合

yyを固定し、有界可測関数h:RRh : \mathbb{R} \to \mathbb{R}に対して、次のような線形汎函数F(L(R))F \in \left( L^{\infty} (\mathbb{R}) \right)^{ \ast }を定義しよう。 F(h):=Inh(yTx)dμ(x) F (h) := \int_{I_{n}} h \left( y^{T} x \right) d \mu (x) FFはルベーグ積分によって定義されたので線形性が保証され、μM(In)\mu \in M \left( I_{n} \right)が有限符号測度であるため、FFも有界となり、L(R)L^{\infty} (\mathbb{R})に属する。さて、hhがあるμM(In)\mu \in M \left( I_{n} \right)に対して次を満たす[θ,)[ \theta , \infty )に対する指示関数であるとしよう。 F(h)=Inh(yTx)dμ(x)=μ(Hy,θ+)+μ(Hy,θ0)=0 \begin{align*} F(h) =& \int_{I_{n}} h \left( y^{T} x \right) d \mu (x) \\ =& \mu \left( H^{+}_{y, -\theta} \right) + \mu \left( H^{0}_{y, -\theta} \right) \\ =& 0 \end{align*} 同様に、hh(θ,)(\theta , \infty)に対する指示関数ならばF(h)=0F(h) = 0であり、FFの線形性により、すべての区間の指示関数hhについてもF(h)=0F(h)=0である。したがって、すべての単純関数hhについてもF(h)=0F(h) = 0であり、単純関数の集合はL(R)L^{\infty } ( \mathbb{R} )で稠密なのでF=0F = 0である。言い換えると、すべての有界可測関数hL(R)h \in L^{\infty} \left( \mathbb{R} \right)についてF(h)=0F(h) = 0である。我々はσ\sigmaもまた有界可測シグモイダル関数と仮定したのでσL(R)\sigma \in L^{\infty} ( \mathbb{R} )であり、 F(σ)=Inσ(yTx)dμ(x)=Inσ(yTx+θ)dμ(x)=0 F (\sigma) = \int_{I_{n}} \sigma \left( y^{T} x \right) d \mu (x) = \int_{I_{n}} \sigma \left( y^{T} x + \theta \right) d \mu (x) = 0 である。この条件でμ=0\mu = 0であることを示すだけでよい。


Part 4.

L(R)L^{\infty}\left( \mathbb{R} \right)は有界可測関数のベクトル空間なので、mRnm \in \mathbb{R}^{n}に対して、有界可測関数s,c:InRs,c : I_{n} \to \mathbb{R}s(x):=sin(mTx)c(x):=cos(mTx) s(x) := \sin \left( m^{T} x \right) \\ c(x) := \cos \left( m^{T} x \right) のように定義すると、ベクトル空間は加法とスカラー乗法に対して閉じているので、c+isc + isもまた有界可測関数である。しかし、すべての有界可測関数についてF=0F=0だったので、オイラーの公式により 0=F(c+is)=In[cos(mTx)+isin(mTx)]dμ(x)=Inexp(imTx)dμ(x) \begin{align*} 0 =& F (c + is) \\ =& \int_{I_{n}} \left[ \cos \left( m^{T} x \right) + i \sin \left( m^{T} x \right) \right] d \mu (x) \\ =& \int_{I_{n}} \exp \left( i m^{T} x \right) d \mu (x) \end{align*}

フーリエ変換の定義: 次のような変換F\mathcal{F}をフーリエ変換という。 Ff(ξ):=f(x)eiξxdx \mathcal{F}f(\xi):=\int f(x)e^{-i \xi x }d x

フーリエ変換の定義とルベーグ積分の性質により 0=F(c+is)=Fμ 0 = F (c + is) = \mathcal{F} \mu である。これはμ\muフーリエ変換00である