logo

역 전파 알고리즘 📂머신러닝

역 전파 알고리즘

이 글은 역전파 알고리즘의 원리를 수학 전공자가 이해하기 쉽도록 작성되었다.

표기법

1.PNG

위 그림과 같은 인공 신경망이 주어졌다고 하자. x=(x1,x2,,xn0)\mathbf{x} = (x_{1}, x_{2}, \dots, x_{n_{0}})는 입력input, yjly_{j}^{l}ll번째 층의 jj번째 노드, y^=(y^1,y^2,,y^n^)\hat{\mathbf{y}} = (\hat{y}_{1}, \hat{y}_{2}, \dots, \hat{y}_{\hat{n}})는 출력output이다.

LNL \in \mathbb{N}은 은닉층hidden layer의 개수이고, n=(n0,n1,,nL,n^)NL+2\mathbf{n}=(n_{0}, n_{1}, \dots, n_{L}, \hat{n}) \in \mathbb{N}^{L+2}의 성분은 순서대로 입력층, LL개의 은닉층, 출력층의 노드의 수를 의미한다. 또한 편의상 00번째 은닉층은 입력층을 의미하고, L+1L+1번째 은닉층은 출력층을 의미한다고 하자.

wjilw_{ji}^{l}ll번째 층의 ii번째 노드와 그 다음 층의 jj번째 노드를 연결하는 가중치를 나타낸다. 그러면 각 층에서 다음 층으로의 전파는 아래의 움짤과 같이 일어난다.

1.gif

여기서 ϕ\phi는 임의의 활성화 함수이다. ll번째 층에서 다음 층의 jj번째 노드로 전달되는 선형결합을 vilv_{i}^{l}로 표기하자.

vjl=i=1nlwjilyilyjl+1=ϕ(vjl)=ϕ(i=1nlwjilyil) \begin{align*} v_{j}^{l} &= \sum _{i=1}^{n_{l}} w_{ji}^{l}y_{i}^{l} \\ y_{j}^{l+1} &= \phi ( v_{j}^{l} ) = \phi \left( \sum \nolimits_{i=1}^{n_{l}} w_{ji}^{l}y_{i}^{l} \right) \end{align*}

이를 정리하면 다음과 같다.

기호의미
x=(x1,x2,,xn0)\mathbf{x}=(x_{1}, x_{2}, \dots, x_{n_{0}})입력
yjly^{l}_{j}ll번째 층의 jj번째 노드
y^=(y^1,y^2,,y^n^)\hat{\mathbf{y}} = (\hat{y}_{1}, \hat{y}_{2}, \dots, \hat{y}_{\hat{n}} )출력
nln_{l}ll번째 층의 노드 수
wjilw_{ji}^{l}ll번째 층의 ii번째 노드와 그 다음 층의 jj번째 노드를 연결하는 가중치
ϕ\phi활성화 함수
vjl=i=1nlwjilyilv_{j}^{l} = \sum \limits _{i=1} ^{n_{l}} w_{ji}^{l}y_{i}^{l}선형결합
yjl+1=ϕ(vjl)y^{l+1}_{j} = \phi (v_{j}^{l})ll번째 층에서 다음 층으로의 전파

정리

E=E(y^)E = E(\hat{\mathbf{y}})를 미분가능한 적절한 손실 함수라고 하자. 그러면 EE최적화하는 방법은 각 층에서의 가중치 wjilw_{ji}^{l}들을 다음과 같이 업데이트하는 것이다.

wjilwjil+αδjlyil \begin{equation} w_{ji}^{l} \leftarrow w_{ji}^{l} + \alpha \delta^{l}_{j} y_{i}^{l} \label{thm} \end{equation}

이때 α\alpha학습률이고, δjl\delta_{j}^{l}은 다음과 같다. l=Ll=L일 때,

δjL=ϕ(vjL)E(y^)y^j -\delta_{j}^{L} = \phi ^{\prime} (v_{j}^{L}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{j}}

l{0,,L1}l \in \left\{ 0,\dots, L-1 \right\}일 때,

δjl=ϕ(vjl)i=1nlδil+1wijl+1 \delta_{j}^{l} = \phi ^{\prime} (v_{j}^{l}) \sum_{i=1}^{n_{l}} \delta_{i}^{l+1} w_{i j}^{l+1}

설명

(1)(1)을 살펴보자. ll번째 층과 l+1l+1번째 층 사이의 가중치를 업데이트할 때 ll번째 노드들 yjly_{j}^{l}에 의존한다는 말인데, 각 층의 출력에 따라 최종적으로 출력 y^\hat{\mathbf{y}}이 결정되므로 당연하다고 볼 수 있다. 또한 yjly_{j}^{l}들은 ll번째에서 l+1l+1번째 층으로 전파될 때의 입력으로 볼 수 있는데, 이는 선형회귀모델에서 LMSLeast Mean Squares로 학습하는 방법과 비슷한 꼴이다.

wwα(wTxy)x \mathbf{w} \leftarrow \mathbf{w} - \alpha (\mathbf{w}^{T}\mathbf{x} - \mathbf{y}) \mathbf{x}

한편 각 층에서의 출력 yjly_{j}^{l}들은 입력층에서부터 출력층으로 계산되는 반면에 최적화를 위한 δjl\delta_{j}^{l}들은 다음과 같이 출력층에서부터 입력층으로 거꾸로 계산되기 때문에 이러한 최적화 기법을 역 전파 알고리즘back propagation algorithm이라 한다.

δjL=ϕ(vjL)E(y^)y^jδjL1=ϕ(vjL1)iδjLwijLδjL2=ϕ(vjL2)iδiL1wijL1δjL3=ϕ(vjL3)iδiL2wijL2δj1=ϕ(vj1)iδi2wij2δj0=ϕ(vj0)iδi1wij1 \begin{align*} \delta_{j}^{L} &= - \phi ^{\prime} (v_{j}^{L}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{j}} \\ \delta_{j}^{L-1} &= \phi ^{\prime} (v_{j}^{L-1}) \sum _{i} \delta_{j}^{L} w_{ij}^{L} \\ \delta_{j}^{L-2} &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{i} \delta_{i}^{L-1} w_{ij}^{L-1} \\ \delta_{j}^{L-3} &= \phi ^{\prime} (v_{j}^{L-3}) \sum _{i} \delta_{i}^{L-2} w_{ij}^{L-2} \\ &\vdots \\ \delta_{j}^{1} &= \phi ^{\prime} (v_{j}^{1}) \sum _{i} \delta_{i}^{2} w_{ij}^{2} \\ \delta_{j}^{0} &= \phi ^{\prime} (v_{j}^{0}) \sum _{i} \delta_{i}^{1} w_{ij}^{1} \end{align*}

증명

입력층에서부터 출력층으로의 계산이 끝났다고 하자. 가중치를 손실 함수 EE가 줄어드는 방향으로 수정하는 방법은 경사하강법을 사용하면 다음과 같다.

wjilwjilαE(y^)wjil \begin{equation} w_{ji}^{l} \leftarrow w_{ji}^{l} - \alpha \dfrac{\partial E(\hat{\mathbf{y}})}{\partial w_{ji}^{l} } \label{gradesent} \end{equation}

각각의 yily_{i}^{l}들은 주어진 값이므로, 편미분 부분을 계산할 수 있는 꼴로 풀어내면 된다. 우변의 편미분은 연쇄법칙에 의해 다음과 같다.

E(y^)wjil=E(y^)vjlvjlwjil=E(y^)vjlyil \begin{equation} \dfrac{\partial E(\hat{\mathbf{y}})}{\partial w_{ji}^{l}} = \dfrac{\partial E(\hat{\mathbf{y}}) }{\partial v_{j}^{l}} \dfrac{\partial v_{j}^{l}}{\partial w_{ji}^{l}} = \dfrac{\partial E(\hat{\mathbf{y}})}{\partial v_{j}^{l}} y_{i}^{l} \label{chainrule} \end{equation}

(3)(3)의 우변의 편미분을 δjl-\delta_{j}^{l}로 두면, (2)(2)로부터 (1)(1)을 얻는다.

wjilwjil+αδjlyil w_{ji}^{l} \leftarrow w_{ji}^{l} + \alpha \delta^{l}_{j} y_{i}^{l}

각 층에서 δjl\delta_{j}^{l}를 다음과 같이 구한다.

  • l=Ll = L인 경우

    j{1,,n^}j \in \left\{ 1, \dots, \hat{n} \right\}에 대해서 다음이 성립한다.

    δjL=E(y^)vjL=E(y^)y^jdy^jdvjL \begin{equation} -\delta_{j}^{L} = \dfrac{\partial E (\hat{\mathbf{y}})}{\partial v_{j}^{L}} = \dfrac{\partial E ( \hat{\mathbf{y}} ) } {\partial \hat{y}_{j}} \dfrac{d \hat{y}_{j}}{d v_{j}^{L}} \label{deltamL} \end{equation}

    이때 y^j=ϕ(vjL)\hat{y}_{j} =\phi (v_{j}^{L})이므로 다음을 얻는다.

    δjL(t)=ϕ(vjL(t))E(y^)y^j -\delta_{j}^{L} (t) =\phi ^{\prime} (v_{j}^{L}(t)) \dfrac{\partial E (\hat{\mathbf{y}})}{\partial \hat{y}_{j}}

  • l=L1l = L-1인 경우

    j{1,,nL1}j \in \left\{ 1, \dots, n_{L-1} \right\}에 대해서 다음과 같다.

    δjL1=E(y^)vjL1=E(y^)yjLdyjLdvjL1 -\delta_{j}^{L-1} = \dfrac{\partial E (\hat{\mathbf{y}})}{\partial v_{j}^{L-1}} = \dfrac{\partial E ( \hat{\mathbf{y}} ) } {\partial y_{j}^{L}} \dfrac{d y_{j}^{L}}{d v_{j}^{L-1}}

    이때 yjL=ϕ(vjL1)y_{j}^{L} =\phi (v_{j}^{L-1})이므로 다음을 얻는다.

    δjL1=E(y^)yjLyjLvjL1=ϕ(vjL1)E(y^)yjL -\delta_{j}^{L-1} = \dfrac{\partial E (\hat{\mathbf{y}})}{\partial y_{j}^{L}} \dfrac{\partial y_{j}^{L}}{\partial v_{j}^{L-1}} = \phi ^{\prime} (v_{j}^{L-1}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial y_{j}^{L}}

    우변의 편미분은 연쇄법칙에 의해 다음과 같이 계산된다.

    δjL1=ϕ(vjL1)E(y^)yjL=ϕ(vjL1)iE(y^)y^iy^iyjL=ϕ(vjL1)iE(y^)y^idy^idviLviLyjL \begin{align*} -\delta_{j}^{L-1} &= \phi ^{\prime} (v_{j}^{L-1}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial y_{j}^{L}} \\ &= \phi ^{\prime} (v_{j}^{L-1}) \sum _{i} \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{\partial \hat{y}_{i}}{\partial y_{j}^{L}} \\ &= \phi ^{\prime} (v_{j}^{L-1}) \sum _{i} \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{d \hat{y}_{i}}{d v_{i}^{L}} \dfrac{\partial v_{i}^{L}}{\partial y_{j}^{L}} \end{align*}

    여기서 (4)(4)viL=jwijLyjL{\color{green}v_{i}^{L}=\sum_{j}w_{ij}^{L}y_{j}^{L}}에 의해 다음을 얻는다.

    δjL1=ϕ(vjL1)i=1E(y^)y^iy^iviLdviLdyjL=ϕ(vjL1)iδiLwijL    δjL1=ϕ(vjL1)iδiLwijL \begin{align} && -\delta_{j}^{L-1} &= \phi ^{\prime} (v_{j}^{L-1}) \sum _{i=1} {\color{blue}\dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{\partial \hat{y}_{i}}{\partial v_{i}^{L}}} {\color{green} \dfrac{d v_{i}^{L}}{d y_{j^{L}}} } \nonumber \\ && &= \phi ^{\prime} (v_{j}^{L-1}) \sum _{i} {\color{blue} -\delta_{i}^{L}} {\color{green} w_{ij}^{L} }\nonumber \\ {}\nonumber \\ \implies && \delta_{j}^{L-1} &= \phi ^{\prime} (v_{j}^{L-1}) \sum _{i} \delta_{i}^{L} w_{ij}^{L} \label{deltajL-1} \end{align}

  • l=L2l = L-2인 경우

    j{1,,nL2}j \in \left\{ 1, \dots, n_{L-2} \right\}에 대해서 다음과 같다.

    δjL2=E(y^)vjL2=E(y^)yjL1dyjL1dvjL2 -\delta_{j}^{L-2} = \dfrac{\partial E (\hat{\mathbf{y}})}{\partial v_{j}^{L-2}} = \dfrac{\partial E ( \hat{\mathbf{y}} ) } {\partial y_{j}^{L-1}} \dfrac{d y_{j}^{L-1}}{d v_{j}^{L-2}}

    이때 yjL1=ϕ(vjL2)y_{j}^{L-1} =\phi (v_{j}^{L-2})이므로 다음을 얻는다.

    δjL2=E(y^)yjL1dyjL1dvjL2=ϕ(vjL2)E(y^)yjL1 -\delta_{j}^{L-2} = \dfrac{\partial E (\hat{\mathbf{y}})}{\partial y_{j}^{L-1}} \dfrac{d y_{j}^{L-1}}{d v_{j}^{L-2}} = \phi ^{\prime} (v_{j}^{L-2}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial y_{j}^{L-1}}

    우변의 편미분은 연쇄법칙에 의해 다음과 같이 계산된다.

    δjL2=ϕ(vjL2)E(y^)yjL1=ϕ(vjL2)iE(y^)y^iy^iyjL1=ϕ(vjL2)iE(y^)y^idy^idviLviLyjL1=ϕ(vjL2)iE(y^)y^idy^idviLkviLykLykLyjL1=ϕ(vjL2)iE(y^)y^idy^idviLkviLykLdykLdvkL1vkL1yjL1=ϕ(vjL2)kiE(y^)y^idy^idviLviLykLdykLdvkL1dvkL1yjL1=ϕ(vjL2)kiδiLwikLϕ(vkL1)wkjL1 \begin{align*} -\delta_{j}^{L-2} &= \phi ^{\prime} (v_{j}^{L-2}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial y_{j}^{L-1}} \\ &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{i} \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{\partial \hat{y}_{i}}{\partial y_{j}^{L-1}} \\ &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{i} \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{d \hat{y}_{i}}{d v_{i}^{L}} \dfrac{\partial v_{i}^{L}}{\partial y_{j}^{L-1}} \\ &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{i} \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{d \hat{y}_{i}}{d v_{i}^{L}} \sum _{k} \dfrac{\partial v_{i}^{L}}{\partial y_{k}^{L}} \dfrac{\partial y_{k}^{L}}{\partial y_{j}^{L-1}} \\ &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{i} \dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{d \hat{y}_{i}}{d v_{i}^{L}} \sum _{k} \dfrac{\partial v_{i}^{L}}{\partial y_{k}^{L}} \dfrac{d y_{k}^{L}}{d v_{k}^{L-1}} \dfrac{\partial v_{k}^{L-1}}{\partial y_{j}^{L-1}} \\ &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{k} \sum _{i} {\color{blue}\dfrac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i}} \dfrac{d \hat{y}_{i}}{d v_{i}^{L}}} {\color{red}\dfrac{\partial v_{i}^{L}}{\partial y_{k}^{L}} } {\color{green}\dfrac{d y_{k}^{L}}{d v_{k}^{L-1}}} {\color{purple}\dfrac{d v_{k}^{L-1}}{\partial y_{j}^{L-1}}} \\ &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{k} \sum _{i} {\color{blue} -\delta_{i}^{L}} {\color{red} w_{ik}^{L}} {\color{green} \phi^{\prime}(v_{k}^{L-1})} {\color{purple} w_{kj}^{L-1}} \end{align*}

    따라서 다음을 얻는다.

    δjL2=ϕ(vjL2)kiδiLwikLϕ(vkL1)wkjL1 \delta_{j}^{L-2} = -\phi ^{\prime} (v_{j}^{L-2}) \sum _{k} \sum _{i} \delta_{i}^{L} w_{ik}^{L} \phi^{\prime}(v_{k}^{L-1}) w_{kj}^{L-1}

    이때 (5)(5)에 의해 다음이 성립한다.

    iδiLwikLϕ(vkL1)=ϕ(vkL1)iδiLwikL=δkL1 \sum _{i} \delta_{i}^{L} w_{ik}^{L} \phi^{\prime}(v_{k}^{L-1}) = \phi^{\prime}(v_{k}^{L-1}) \sum _{i} \delta_{i}^{L} w_{ik}^{L} = \delta_{k}^{L-1}

    따라서 다음을 얻는다.

    δjL2=ϕ(vjL2)kδkL1wkjL1=ϕ(vjL2)iδiL1wijL1 \begin{align*} \delta_{j}^{L-2} &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{k} \delta_{k}^{L-1} w_{kj}^{L-1} \\ &= \phi ^{\prime} (v_{j}^{L-2}) \sum _{i} \delta_{i}^{L-1} w_{ij}^{L-1} \end{align*}

  • 일반화: l{1,,L1}l \in \left\{ 1, \dots, L-1 \right\}

    위의 결과들을 토대로 다음과 같이 일반화 할 수 있다. j{1,,nl}j \in \left\{ 1, \dots, n_{l} \right\}에 대해서 다음과 같다.

    δjl=ϕ(vjl)E(y^)yjl -\delta_{j}^{l} = \phi ^{\prime} (v_{j}^{l}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial y_{j}^{l}}

    우변의 편미분을 연쇄법칙으로 풀어내면 다음과 같다.

    δjl=ϕ(vjl)E(y^)yjl=ϕ(vjl)i(1)E(y^)y^i(1)y^i(1)yjl=ϕ(vjl)i(1)E(y^)y^i(1)dy^i(1)dvi(1)Lvi(1)Lyjl=ϕ(vjl)i(2)i(1)E(y^)y^i(1)dy^i(1)dvi(1)Lvi(1)Lyi(2)Lyi(2)Lyjl=ϕ(vjl)i(2)i(1)E(y^)y^i(1)dy^i(1)dvi(1)Lvi(1)Lyi(2)Ldyi(2)Ldvi(2)L1vi(2)L1yjl=ϕ(vjl)i(3)i(2)i(1)E(y^)y^i(1)dy^i(1)dvi(1)Lvi(1)Lyi(2)Ldyi(2)Ldvi(2)L1vi(2)L1yi(3)L1yi(3)L1yjl=ϕ(vjl)i(3)i(2)i(1)E(y^)y^i(1)dy^i(1)dvi(1)Lvi(1)Lyi(2)Ldyi(2)Ldvi(2)L1vi(2)L1yi(3)L1dyi(3)L1dvi(3)L2vi(3)L2yjl=ϕ(vjl)i(Ll)i(3)i(2)i(1)E(y^)y^i(1)dy^i(1)dvi(1)Lvi(1)Lyi(2)Ldyi(2)Ldvi(2)L1vi(2)L1yi(3)L1dyi(3)L1dvi(3)L2vi(3)L2yi(4)L2dyi(Ll+1)l+1dvi(Ll+1)lvi(Ll+1)lyjl=ϕ(vjl)i(Ll)i(3)i(2)i(1)δi(1)Lwi(1)i(2)Lϕ(vi(2)L1)wi(2)i(3)L1ϕ(vi(3)L2)wi(3)i(4)L2ϕ(vLl+1l)wi(Ll+1)jL=ϕ(vjl)i(Ll)i(3)i(2)δi(2)L1wi(2)i(3)L1ϕ(vi(3)L2)wi(3)i(4)L2ϕ(vLl+1l)wi(Ll+1)jL=ϕ(vjl)i(Ll)i(3)δi(3)L2wi(3)i(4)L2wi(Ll)jL=ϕ(vjl)i(Ll)δi(Ll)l+1wi(ll)jl \begin{align*} &\quad \delta_{j}^{l} \\ &= -\phi ^{\prime} (v_{j}^{l}) \dfrac{\partial E(\hat{\mathbf{y}})}{\partial y_{j}^{l}} \\ &= -\phi ^{\prime} (v_{j}^{l}) \sum_{i_{(1)}} \frac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i_{(1)}}} \frac{\partial \hat{y}_{i_{(1)}}}{\partial y_{j}^{l}} \\ &= -\phi ^{\prime} (v_{j}^{l}) \sum_{i_{(1)}} \frac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i_{(1)}}} \frac{d \hat{y}_{i_{(1)}}}{d v_{i_{(1)}}^{L}} \frac{\partial v_{i_{(1)}}^{L}}{\partial y_{j}^{l}} \\ &= -\phi ^{\prime} (v_{j}^{l}) \sum_{i_{(2)}} \sum_{i_{(1)}} \frac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i_{(1)}}} \frac{d \hat{y}_{i_{(1)}}}{d v_{i_{(1)}}^{L}} \frac{\partial v_{i_{(1)}}^{L}}{\partial y_{i_{(2)}}^{L}} \frac{\partial y_{i_{(2)}}^{L}}{\partial y_{j}^{l}} \\ &= -\phi ^{\prime} (v_{j}^{l}) \sum_{i_{(2)}} \sum_{i_{(1)}} \frac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i_{(1)}}} \frac{d \hat{y}_{i_{(1)}}}{d v_{i_{(1)}}^{L}} \frac{\partial v_{i_{(1)}}^{L}}{\partial y_{i_{(2)}}^{L}} \frac{d y_{i_{(2)}}^{L}}{d v_{i_{(2)}}^{L-1}} \frac{\partial v_{i_{(2)}}^{L-1}}{\partial y_{j}^{l}} \\ &= -\phi ^{\prime} (v_{j}^{l}) \sum_{i_{(3)}} \sum_{i_{(2)}} \sum_{i_{(1)}} \frac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i_{(1)}}} \frac{d \hat{y}_{i_{(1)}}}{d v_{i_{(1)}}^{L}} \frac{\partial v_{i_{(1)}}^{L}}{\partial y_{i_{(2)}}^{L}} \frac{d y_{i_{(2)}}^{L}}{d v_{i_{(2)}}^{L-1}} \frac{\partial v_{i_{(2)}}^{L-1}}{\partial y_{i_{(3)}}^{L-1} } \frac{\partial y_{i_{(3)}}^{L-1} }{ \partial y_{j}^{l}} \\ &= -\phi ^{\prime} (v_{j}^{l}) \sum_{i_{(3)}} \sum_{i_{(2)}} \sum_{i_{(1)}} \frac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i_{(1)}}} \frac{d \hat{y}_{i_{(1)}}}{d v_{i_{(1)}}^{L}} \frac{\partial v_{i_{(1)}}^{L}}{\partial y_{i_{(2)}}^{L}} \frac{d y_{i_{(2)}}^{L}}{d v_{i_{(2)}}^{L-1}} \frac{\partial v_{i_{(2)}}^{L-1}}{\partial y_{i_{(3)}}^{L-1} } \frac{d y_{i_{(3)}}^{L-1} }{d v_{i_{(3)}}^{L-2} } \frac{\partial v_{i_{(3)}}^{L-2} }{ \partial y_{j}^{l}} \\ & \quad \vdots \\ &= -\phi ^{\prime} (v_{j}^{l}) \sum_{i_{(L-l)}} \cdots \sum_{i_{(3)}} \sum_{i_{(2)}} \sum_{i_{(1)}} \frac{\partial E(\hat{\mathbf{y}})}{\partial \hat{y}_{i_{(1)}}} \frac{d \hat{y}_{i_{(1)}}}{d v_{i_{(1)}}^{L}} \frac{\partial v_{i_{(1)}}^{L}}{\partial y_{i_{(2)}}^{L}} \frac{d y_{i_{(2)}}^{L}}{d v_{i_{(2)}}^{L-1}} \frac{\partial v_{i_{(2)}}^{L-1}}{\partial y_{i_{(3)}}^{L-1} } \frac{d y_{i_{(3)}}^{L-1} }{d v_{i_{(3)}}^{L-2} } \frac{\partial v_{i_{(3)}}^{L-2} }{ \partial y_{i_{(4)}}^{L-2}} \cdots \frac{d y_{i_{(L-l+1)}}^{l+1} }{d v_{i_{(L-l+1)}}^{l} } \frac{\partial v_{i_{(L-l+1)}}^{l} }{ \partial y_{j}^{l}} \\ &= \phi ^{\prime} (v_{j}^{l}) \sum_{i_{(L-l)}} \cdots \sum_{i_{(3)}} \sum_{i_{(2)}} \sum_{i_{(1)}} -\delta_{i_{(1)}}^{L} w_{i_{(1)}i_{(2)}}^{L} \phi^{\prime}(v_{i_{(2)}}^{L-1}) w_{i_{(2)} i_{(3)}}^{L-1} \phi^{\prime}( v_{i_{(3)}}^{L-2} ) w_{i_{(3)} i_{(4)}}^{L-2} \cdots \phi^{\prime}(v_{L-l+1}^{l})w_{i_{(L-l+1)} j}^{L} \\ &= \phi ^{\prime} (v_{j}^{l}) \sum_{i_{(L-l)}} \cdots \sum_{i_{(3)}} \sum_{i_{(2)}} \delta_{i_{(2)}}^{L-1}w_{i_{(2)} i_{(3)}}^{L-1} \phi^{\prime}( v_{i_{(3)}}^{L-2} ) w_{i_{(3)} i_{(4)}}^{L-2} \cdots \phi^{\prime}(v_{L-l+1}^{l})w_{i_{(L-l+1)} j}^{L} \\ &= \phi ^{\prime} (v_{j}^{l}) \sum_{i_{(L-l)}} \cdots \sum_{i_{(3)}} \delta_{i_{(3)}}^{L-2} w_{i_{(3)} i_{(4)}}^{L-2} \cdots w_{i_{(L-l)} j}^{L} \\ &\quad \vdots \\ &= \phi ^{\prime} (v_{j}^{l}) \sum_{i_{(L-l)}} \delta_{i_{(L-l)}}^{l+1} w_{i_{(l-l)} j}^{l} \end{align*}

    따라서 정리하면 다음과 같다.

    δjl=ϕ(vjl)iδil+1wijl+1 \delta_{j}^{l} = \phi ^{\prime} (v_{j}^{l}) \sum_{i} \delta_{i}^{l+1} w_{ij}^{l+1}