logo

逆伝播アルゴリズム 📂機械学習

逆伝播アルゴリズム

この文は逆転派アルゴリズムの原理を数学専攻者が理解しやすいように作成された。

表記法

1.PNG

上図のような 人工ニューラルネットワーク が与えられたとする。x=(x1,x2,,xn0)\mathbf{x} = (x_{1}, x_{2}, \dots, x_{n_{0}})は入力inputyjly_{j}^{l}ll番目の層のjjノード、y^=(y^1,y^2,,y^n^)\hat{\mathbf{y}} = (\hat{y}_{1}, \hat{y}_{2}, \dots, \hat{y}_{\hat{n}})ドルは出力outputである。

LNL \in \mathbb{N}は、隠匿層hidden layerの個数であり、n=(n0n1nLn^)NN=(n)\mathbf{n}=(n_{0}、n_{1}、\dots、n_{L}、\hat{n}) \in \mathbb{N}^{N}=(n)、の成分は順に入力層、LL個の隠匿層と出力層のノード数を意味する。 また、便宜上、00番目の隠匿層は入力層を意味し、L+1L+1番目の隠匿層は出力層を意味するとする。

wjilw_{ji}^{l}は、llの次の層のiiのノードとその次の層のjjのノードを連結する加重値を表す。 すると、各階から次の階への伝播は、以下のGIFのように起こる。

1.gif

ここで ϕ\phi は任意の活性化関数 である。 ll 番目の層から次の層の jj 番目のノードに伝達される線形結合を vilv_{i}^{l}で表記しよう。

vjl=i=1nlwjilyilyjl+1=ϕ(vjl)=ϕ(i=1nlwjilyil) \begin{align*} v_{j}^{l} &= \sum _{i=1}^{n_{l}} w_{ji}^{l}y_{i}^{l} \\ y_{j}^{l+1} &= \phi ( v_{j}^{l} ) = \phi \left( \sum \nolimits_{i=1}^{n_{l}} w_{ji}^{l}y_{i}^{l} \right) \end{align*}

これを定理すると次のようになる。

記号意味
x=(x1,x2,,xn0)\mathbf{x}=(x_{1}, x_{2}, \dots, x_{n_{0}})入力
yjly^{l}_{j}ll 番目の層の jj 番目のノード
y^=(y^1,y^2,,y^n^)\hat{\mathbf{y}} = (\hat{y}_{1}, \hat{y}_{2}, \dots, \hat{y}_{\hat{n}} )出力
nln_{l}ll 番目の層のノード数
wjilw_{ji}^{l}ll 番目の層の ii 番目のノードと その次の層の jj 番目のノードを接続する重み付け
ϕ\phi活性化関数
vjl=i=1nlwjilyilv_{j}^{l} = \sum \limits _{i=1} ^{n_{l}} w_{ji}^{l}y_{i}^{l}線形結合
yjl+1=ϕ(vjl)y^{l+1}_{j} = \phi (v_{j}^{l})ll 番目の階から次の階への 電波

定理

E=E(y^)E = E(\hat{\mathbf{y}})を微分可能な適切な損失関数とする。 それでは、EE最適化する方法は、各層での加重値wjilw_{ji}^{l}を次のようにアップデートするものである。

wjilwjil+αδjlyil \begin{equation} w_{ji}^{l} \leftarrow w_{ji}^{l} + \alpha \delta^{l}_{j} y_{i}^{l} \label{thm} \end{equation}

この時、α\alpha学習率で、δjl\delta_{j}^{l} は以下の通りである。

l=Ll=Lの時、

δjL=ϕ(vjL)E(y^)y^j -\delta_{j}^{L} = \phi ^{\prime} (v_{j}^{L}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{j}}

l{0,,L1}l \in \left\{ 0,\dots, L-1 \right\}の時、

δjl=ϕ(vjl)i=1nlδil+1wijl+1 \delta_{j}^{l} = \phi ^{\prime} (v_{j}^{l}) \sum_{i=1}^{n_{l}} \delta_{i}^{l+1} w_{i j}^{l+1}

説明

(1)(1)を見てみよう。 ll番目の層とl+1l+1番目の層の間の加重値を更新する時、ll番目のノードのyjly_{j}^{l}に依存するということですが、各層の出力に応じて最終的に出力y^\hat{\mathbf{y}}が決定されるので当然と見ることができる。 また、yjly_{j}^{l}ll番目からl+1l+1番目の層に伝播される時の入力と見ることができるが、これは線形回帰モデルでLMSLeast Mean Squaresで学習する方法と似ている。

wwα(wTxy)x \mathbf{w} \leftarrow \mathbf{w} - \alpha (\mathbf{w}^{T}\mathbf{x} - \mathbf{y}) \mathbf{x}

一方、各層での出力yjly_{j}^{l}は入力層から出力層として計算される反面、最適化のためのδjl\delta_{j}^{l} は次のように出力層から入力層に逆に計算されるため、このような最適化手法を逆伝播アルゴリズムback propagation algorithmという。

δjL=ϕ(vjL)E(y^)y^jδjL1=ϕ(vjL1)iδjLwijLδjL2=ϕ(vjL2)iδiL1wijL1δjL3=ϕ(vjL3)iδiL2wijL2δj1=ϕ(vj1)iδi2wij2δj0=ϕ(vj0)iδi1wij1 \begin{align*} \delta_{j}^{L} &= - \phi ^{\prime} (v_{j}^{L}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{j}} \\ \delta_{j}^{L-1} &= \phi ^{\prime} (v_{j}^{L-1}) \sum _{i} \delta_{j}^{L} w_{ij}^{L} \\ \delta_{j}^{L-2} &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{i} \delta_{i}^{L-1} w_{ij}^{L-1} \\ \delta_{j}^{L-3} &= \phi ^{\prime} (v_{j}^{L-3}) \sum _{i} \delta_{i}^{L-2} w_{ij}^{L-2} \\ &\vdots \\ \delta_{j}^{1} &= \phi ^{\prime} (v_{j}^{1}) \sum _{i} \delta_{i}^{2} w_{ij}^{2} \\ \delta_{j}^{0} &= \phi ^{\prime} (v_{j}^{0}) \sum _{i} \delta_{i}^{1} w_{ij}^{1} \end{align*}

証明

入力層から出力層への計算が終わったとする。 加重値を損失関数EEが減る方向に修正する方法は傾斜下降法を使えば次のようになる。

wjilwjilαE(y^)wjil \begin{equation} w_{ji}^{l} \leftarrow w_{ji}^{l} - \alpha \dfrac{\partial E(\hat{\mathbf{y}})}{\partial w_{ji}^{l} } \label{gradesent} \end{equation}

それぞれのyily_{i}^{l}は与えられた値なので、偏微分部分を計算できる形で解くことができる。 右辺の偏微分は連鎖法則によって次のようになる。

E(y^)wjil=E(y^)vjlvjlwjil=E(y^)vjlyil \begin{equation} \dfrac{\partial E(\hat{\mathbf{y}})}{\partial w_{ji}^{l}} = \dfrac{\partial E(\hat{\mathbf{y}}) }{\partial v_{j}^{l}} \dfrac{\partial v_{j}^{l}}{\partial w_{ji}^{l}} = \dfrac{\partial E(\hat{\mathbf{y}})}{\partial v_{j}^{l}} y_{i}^{l} \label{chainrule} \end{equation}

(3)(3)の右辺の偏微分をδjl-\delta_{j}^{l} とすると、(2)(2) から (1)(1) を得る。

wjilwjil+αδjlyil w_{ji}^{l} \leftarrow w_{ji}^{l} + \alpha \delta^{l}_{j} y_{i}^{l}

各層で δjl\delta_{j}^{l} を次のように求める。

  • l=Ll=Lの場合

    j{1,,n^}j \in \left\{ 1, \dots, \hat{n} \right\} に対して次が成立する。

    δjL=E(y^)vjL=E(y^)y^jdy^jdvjL \begin{equation} -\delta_{j}^{L} = \dfrac{\partial E (\hat{\mathbf{y}})}{\partial v_{j}^{L}} = \dfrac{\partial E ( \hat{\mathbf{y}} ) } {\partial \hat{y}_{j}} \dfrac{d \hat{y}_{j}}{d v_{j}^{L}} \label{deltamL} \end{equation}

    この時、y^j=ϕ(vjL)\hat{y}_{j} =\phi (v_{j}^{L}) であるから次を得る。

    δjL(t)=ϕ(vjL(t))E(y^)y^j -\delta_{j}^{L} (t) =\phi ^{\prime} (v_{j}^{L}(t)) \dfrac{\partial E (\hat{\mathbf{y}})}{\partial \hat{y}_{j}}

  • l=L1l=L-1の場合

    j{1,,nL1}j \in \left\{ 1, \dots, n_{L-1} \right\}については以下の通りである。

    δjL1=E(y^)vjL1==E(y^)yjLdyjLdvjL1 -\delta_{j}^{L-1} = \dfrac{\partial E (\hat{\mathbf{y}})}{\partial v_{j}^{L-1}} = = \dfrac{\partial E ( \hat{\mathbf{y}} ) } {\partial y_{j}^{L}} \dfrac{d y_{j}^{L}}{d v_{j}^{L-1}}

    この時yjL=ϕ(vjL1)y_{j}^{L} =\phi (v_{j}^{L-1}) であるので、次を得る。

    δjL1==E(y^)yjLyjLvjL1==ϕ(vjL1)E(y^)yjL -\delta_{j}^{L-1} = = \dfrac{\partial E (\hat{\mathbf{y}})}{\partial y_{j}^{L}} \dfrac{\partial y_{j}^{L}}{\partial v_{j}^{L-1}} = = \phi ^{\prime} (v_{j}^{L-1}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial y_{j}^{L}}

    右辺の偏微分は連鎖法則によって次のように計算される。

    δjL1=ϕ(vjL1)E(y^)yjL=ϕ(vjL1)iE(y^)y^iy^iyjL=ϕ(vjL1)iE(y^)y^idy^idviLviLyjL \begin{align*} -\delta_{j}^{L-1} &= \phi ^{\prime} (v_{j}^{L-1}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial y_{j}^{L}} \\ \\ &= \phi ^{\prime} (v_{j}^{L-1}) \sum _{i} \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{\partial \hat{y}_{i}}{\partial y_{j}^{L}} \\ \\ &= \phi ^{\prime} (v_{j}^{L-1}) \sum _{i} \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{d \hat{y}_{i}}{d v_{i}^{L}} \dfrac{\partial v_{i}^{L}}{\partial y_{j}^{L}} \end{align*}

    ここで (4)(4)viL=jwijLyjL{\color{green}v_{i}^{L}=\sum_{j}w_{ij}^{L}y_{j}^{L}} により、次を得る。

    δjL1=ϕ(vjL1)i=1E(y^)y^iy^iviLdviLdyjL=ϕ(vjL1)iδiLwijL    δjL1=ϕ(vjL1)iδiLwijL \begin{align} && -\delta_{j}^{L-1} &= \phi ^{\prime} (v_{j}^{L-1}) \sum _{i=1} {\color{blue}\dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{\partial \hat{y}_{i}}{\partial v_{i}^{L}}} {\color{green} \dfrac{d v_{i}^{L}}{d y_{j^{L}}} } \nonumber \\ && &= \phi ^{\prime} (v_{j}^{L-1}) \sum _{i} {\color{blue} -\delta_{i}^{L}} {\color{green} w_{ij}^{L} }\nonumber \\ {}\nonumber \\ \implies && \delta_{j}^{L-1} &= \phi ^{\prime} (v_{j}^{L-1}) \sum _{i} \delta_{i}^{L} w_{ij}^{L} \label{deltajL-1} \end{align}

  • l=L2l=L-2の場合

    j{1,,nL2}j \in \left\{ 1, \dots, n_{L-2} \right\}については以下の通りである。

    δjL2=E(y^)vjL2=E(y^)yjL1dyjL1dvjL2 -\delta_{j}^{L-2} = \dfrac{\partial E (\hat{\mathbf{y}})}{\partial v_{j}^{L-2}} = \dfrac{\partial E ( \hat{\mathbf{y}} ) } {\partial y_{j}^{L-1}} \dfrac{d y_{j}^{L-1}}{d v_{j}^{L-2}}

    この時yjL1=ϕ(vjL2)y_{j}^{L-1} =\phi (v_{j}^{L-2}) であるから次を得る。

    δjL2=E(y^)yjL1dyjL1dvjL2=ϕ(vjL2)E(y^)yjL1 -\delta_{j}^{L-2} = \dfrac{\partial E (\hat{\mathbf{y}})}{\partial y_{j}^{L-1}} \dfrac{d y_{j}^{L-1}}{d v_{j}^{L-2}} = \phi ^{\prime} (v_{j}^{L-2}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial y_{j}^{L-1}}

    右辺の偏微分は連鎖法則によって次のように計算される。

    δjL2=ϕ(vjL2)E(y^)yjL1=ϕ(vjL2)iE(y^)y^iy^iyjL1=ϕ(vjL2)iE(y^)y^idy^idviLviLyjL1=ϕ(vjL2)iE(y^)y^idy^idviLkviLykLykLyjL1=ϕ(vjL2)iE(y^)y^idy^idviLkviLykLdykLdvkL1vkL1yjL1=ϕ(vjL2)kiE(y^)y^idy^idviLviLykLdykLdvkL1dvkL1yjL1=ϕ(vjL2)kiδiLwikLϕ(vkL1)wkjL1 \begin{align*} -\delta_{j}^{L-2} &= \phi ^{\prime} (v_{j}^{L-2}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial y_{j}^{L-1}} \\ &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{i} \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{\partial \hat{y}_{i}}{\partial y_{j}^{L-1}} \\ &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{i} \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{d \hat{y}_{i}}{d v_{i}^{L}} \dfrac{\partial v_{i}^{L}}{\partial y_{j}^{L-1}} \\ &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{i} \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{d \hat{y}_{i}}{d v_{i}^{L}} \sum _{k} \dfrac{\partial v_{i}^{L}}{\partial y_{k}^{L}} \dfrac{\partial y_{k}^{L}}{\partial y_{j}^{L-1}} \\ &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{i} \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{d \hat{y}_{i}}{d v_{i}^{L}} \sum _{k} \dfrac{\partial v_{i}^{L}}{\partial y_{k}^{L}} \dfrac{d y_{k}^{L}}{d v_{k}^{L-1}} \dfrac{\partial v_{k}^{L-1}}{\partial y_{j}^{L-1}} \\ &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{k} \sum _{i} {\color{blue}\dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{d \hat{y}_{i}}{d v_{i}^{L}}} {\color{red}\dfrac{\partial v_{i}^{L}}{\partial y_{k}^{L}} } {\color{green}\dfrac{d y_{k}^{L}}{d v_{k}^{L-1}}} {\color{purple}\dfrac{d v_{k}^{L-1}}{\partial y_{j}^{L-1}}} \\ &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{k} \sum _{i} {\color{blue} -\delta_{i}^{L}} {\color{red} w_{ik}^{L}} {\color{green} \phi^{\prime}(v_{k}^{L-1})} {\color{purple} w_{kj}^{L-1}} \end{align*}

    したがって、次を得る。

    δjL2=ϕ(vjL2)kiδiLwikLϕ(vkL1)wkjL1 \delta_{j}^{L-2} = -\phi ^{\prime} (v_{j}^{L-2}) \sum _{k} \sum _{i} \delta_{i}^{L} w_{ik}^{L} \phi^{\prime}(v_{k}^{L-1}) w_{kj}^{L-1}

    このとき、(5)(5) によって次が成立する。

    iδiLwikLϕ(vkL1)=ϕ(vkL1)iδiLwikL=δkL1 \sum _{i} \delta_{i}^{L} w_{ik}^{L} \phi^{\prime}(v_{k}^{L-1}) = \phi^{\prime}(v_{k}^{L-1}) \sum _{i} \delta_{i}^{L} w_{ik}^{L} = \delta_{k}^{L-1}

    したがって、次を得る。

    δjL2=ϕ(vjL2)kδkL1wkjL1=ϕ(vjL2)iδiL1wijL1 \begin{align*} \delta_{j}^{L-2} &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{k} \delta_{k}^{L-1} w_{kj}^{L-1} \\ \\ &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{i} \delta_{i}^{L-1} w_{ij}^{L-1} \end{align*}

  • 一般化: l{1,,L1}l \in \left\{1, \dots, L-1 \right\}

    上記の結果に基づき、次のように一般化することができる。j{1,,nl}j \in \left\{ 1, \dots, n_{l} \right\}については以下の通りである。

    δjl=ϕ(vjl)E(y^)yjl -\delta_{j}^{l} = \phi ^{\prime} (v_{j}^{l}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial y_{j}^{l}}

    右辺の偏微分を連鎖法則で解くと次のようになる。

    δjl=ϕ(vjl)E(y^)yjl=ϕ(vjl)i(1)E(y^)y^i(1)y^i(1)yjl=ϕ(vjl)i(1)E(y^)y^i(1)dy^i(1)dvi(1)Lvi(1)Lyjl=ϕ(vjl)i(2)i(1)E(y^)y^i(1)dy^i(1)dvi(1)Lvi(1)Lyi(2)Lyi(2)Lyjl=ϕ(vjl)i(2)i(1)E(y^)y^i(1)dy^i(1)dvi(1)Lvi(1)Lyi(2)Ldyi(2)Ldvi(2)L1vi(2)L1yjl=ϕ(vjl)i(3)i(2)i(1)E(y^)y^i(1)dy^i(1)dvi(1)Lvi(1)Lyi(2)Ldyi(2)Ldvi(2)L1vi(2)L1yi(3)L1yi(3)L1yjl=ϕ(vjl)i(3)i(2)i(1)E(y^)y^i(1)dy^i(1)dvi(1)Lvi(1)Lyi(2)Ldyi(2)Ldvi(2)L1vi(2)L1yi(3)L1dyi(3)L1dvi(3)L2vi(3)L2yjl=ϕ(vjl)i(Ll)i(3)i(2)i(1)E(y^)y^i(1)dy^i(1)dvi(1)Lvi(1)Lyi(2)Ldyi(2)Ldvi(2)L1vi(2)L1yi(3)L1dyi(3)L1dvi(3)L2vi(3)L2yi(4)L2dyi(Ll+1)l+1dvi(Ll+1)lvi(Ll+1)lyjl=ϕ(vjl)i(Ll)i(3)i(2)i(1)δi(1)Lwi(1)i(2)Lϕ(vi(2)L1)wi(2)i(3)L1ϕ(vi(3)L2)wi(3)i(4)L2ϕ(vLl+1l)wi(Ll+1)jL=ϕ(vjl)i(Ll)i(3)i(2)δi(2)L1wi(2)i(3)L1ϕ(vi(3)L2)wi(3)i(4)L2ϕ(vLl+1l)wi(Ll+1)jL=ϕ(vjl)i(Ll)i(3)δi(3)L2wi(3)i(4)L2wi(Ll)jL=ϕ(vjl)i(Ll)δi(Ll)l+1wi(ll)jl \begin{align*} &\quad \delta_{j}^{l} \\ &= -\phi ^{\prime} (v_{j}^{l}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial y_{j}^{l}} \\ &= -\phi ^{\prime} (v_{j}^{l}) \sum_{i_{(1)}} \frac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i_{(1)}}} \frac{\partial \hat{y}_{i_{(1)}}}{\partial y_{j}^{l}} \\ &= -\phi ^{\prime} (v_{j}^{l}) \sum_{i_{(1)}} \frac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i_{(1)}}} \frac{d \hat{y}_{i_{(1)}}}{d v_{i_{(1)}}^{L}} \frac{\partial v_{i_{(1)}}^{L}}{\partial y_{j}^{l}} \\ &= -\phi ^{\prime} (v_{j}^{l}) \sum_{i_{(2)}} \sum_{i_{(1)}} \frac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i_{(1)}}} \frac{d \hat{y}_{i_{(1)}}}{d v_{i_{(1)}}^{L}} \frac{\partial v_{i_{(1)}}^{L}}{\partial y_{i_{(2)}}^{L}} \frac{\partial y_{i_{(2)}}^{L}}{\partial y_{j}^{l}} \\ &= -\phi ^{\prime} (v_{j}^{l}) \sum_{i_{(2)}} \sum_{i_{(1)}} \frac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i_{(1)}}} \frac{d \hat{y}_{i_{(1)}}}{d v_{i_{(1)}}^{L}} \frac{\partial v_{i_{(1)}}^{L}}{\partial y_{i_{(2)}}^{L}} \frac{d y_{i_{(2)}}^{L}}{d v_{i_{(2)}}^{L-1}} \frac{\partial v_{i_{(2)}}^{L-1}}{\partial y_{j}^{l}} \\ &= -\phi ^{\prime} (v_{j}^{l}) \sum_{i_{(3)}} \sum_{i_{(2)}} \sum_{i_{(1)}} \frac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i_{(1)}}} \frac{d \hat{y}_{i_{(1)}}}{d v_{i_{(1)}}^{L}} \frac{\partial v_{i_{(1)}}^{L}}{\partial y_{i_{(2)}}^{L}} \frac{d y_{i_{(2)}}^{L}}{d v_{i_{(2)}}^{L-1}} \frac{\partial v_{i_{(2)}}^{L-1}}{\partial y_{i_{(3)}}^{L-1} } \frac{\partial y_{i_{(3)}}^{L-1} }{ \partial y_{j}^{l}} \\ &= -\phi ^{\prime} (v_{j}^{l}) \sum_{i_{(3)}} \sum_{i_{(2)}} \sum_{i_{(1)}} \frac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i_{(1)}}} \frac{d \hat{y}_{i_{(1)}}}{d v_{i_{(1)}}^{L}} \frac{\partial v_{i_{(1)}}^{L}}{\partial y_{i_{(2)}}^{L}} \frac{d y_{i_{(2)}}^{L}}{d v_{i_{(2)}}^{L-1}} \frac{\partial v_{i_{(2)}}^{L-1}}{\partial y_{i_{(3)}}^{L-1} } \frac{d y_{i_{(3)}}^{L-1} }{d v_{i_{(3)}}^{L-2} } \frac{\partial v_{i_{(3)}}^{L-2} }{ \partial y_{j}^{l}} \\ & \quad \vdots \\ &= -\phi ^{\prime} (v_{j}^{l}) \sum_{i_{(L-l)}} \cdots \sum_{i_{(3)}} \sum_{i_{(2)}} \sum_{i_{(1)}} \frac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i_{(1)}}} \frac{d \hat{y}_{i_{(1)}}}{d v_{i_{(1)}}^{L}} \frac{\partial v_{i_{(1)}}^{L}}{\partial y_{i_{(2)}}^{L}} \frac{d y_{i_{(2)}}^{L}}{d v_{i_{(2)}}^{L-1}} \frac{\partial v_{i_{(2)}}^{L-1}}{\partial y_{i_{(3)}}^{L-1} } \frac{d y_{i_{(3)}}^{L-1} }{d v_{i_{(3)}}^{L-2} } \frac{\partial v_{i_{(3)}}^{L-2} }{ \partial y_{i_{(4)}}^{L-2}} \cdots \frac{d y_{i_{(L-l+1)}}^{l+1} }{d v_{i_{(L-l+1)}}^{l} } \frac{\partial v_{i_{(L-l+1)}}^{l} }{ \partial y_{j}^{l}} \\ &= \phi ^{\prime} (v_{j}^{l}) \sum_{i_{(L-l)}} \cdots \sum_{i_{(3)}} \sum_{i_{(2)}} \sum_{i_{(1)}} -\delta_{i_{(1)}}^{L} w_{i_{(1)}i_{(2)}}^{L} \phi^{\prime}(v_{i_{(2)}}^{L-1}) w_{i_{(2)} i_{(3)}}^{L-1} \phi^{\prime}( v_{i_{(3)}}^{L-2} ) w_{i_{(3)} i_{(4)}}^{L-2} \cdots \phi^{\prime}(v_{L-l+1}^{l})w_{i_{(L-l+1)} j}^{L} \\ &= \phi ^{\prime} (v_{j}^{l}) \sum_{i_{(L-l)}} \cdots \sum_{i_{(3)}} \sum_{i_{(2)}} \delta_{i_{(2)}}^{L-1}w_{i_{(2)} i_{(3)}}^{L-1} \phi^{\prime}( v_{i_{(3)}}^{L-2} ) w_{i_{(3)} i_{(4)}}^{L-2} \cdots \phi^{\prime}(v_{L-l+1}^{l})w_{i_{(L-l+1)} j}^{L} \\ &= \phi ^{\prime} (v_{j}^{l}) \sum_{i_{(L-l)}} \cdots \sum_{i_{(3)}} \delta_{i_{(3)}}^{L-2} w_{i_{(3)} i_{(4)}}^{L-2} \cdots w_{i_{(L-l)} j}^{L} \\ &\quad \vdots \\ &= \phi ^{\prime} (v_{j}^{l}) \sum_{i_{(L-l)}} \delta_{i_{(L-l)}}^{l+1} w_{i_{(l-l)} j}^{l} \end{align*}

    したがって、定理すると次のようになる。

    δjl=ϕ(vjl)iδil+1wijl+1 \delta_{j}^{l} = \phi ^{\prime} (v_{j}^{l}) \sum_{i} \delta_{i}^{l+1} w_{ij}^{l+1}