如下图,这是一个层数较少的神经网络,我们选择其中一层,从第二层隐藏层的计算着手,在第l层有参数 W l [ ] W^{l[]} Wl[]和 b [ l ] b^{[l]} b[l],正向传播里有输入的激活函数,输入的前一层是 a [ l − 1 ] a^{[l-1]} a[l−1],输出是 a [ l ] a^{[l]} a[l]。 z [ l ] = W [ l ] a [ l − 1 ] + b z^{[l]}=W^{[l]}a^{[l-1]}+b z[l]=W[l]a[l−1]+b, a [ l ] = g [ l ] ( z [ l ] ) a^{[l]}=g^{[l]}(z^{[l]}) a[l]=g[l](z[l]),这就是如何从输入 a [ l − 1 ] a^{[l-1]} a[l−1]到输出的。
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIyVGduV2YfNWawNCM38FdsYkRGZkRG9lcvx2bjxiNx8VZ6l2csEzZE1ENnpXTz0keYhnRzwEMW1mY1RzRapnTtxkb5ckYplTeMZTTINGMShUYfRHelRHLwEzX39GZhh2css2RkBnVHFmb1clWvB3MaVnRtp1XlBXe0xyayFWbyVGdhd3LcV2Zh1Wa9M3clN2byBXLzN3btg3Pn5GcukTN1EDMyATM5ITMxkTMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
之后就可以把 z [ l ] z^{[l]} z[l]的值缓存起来,因为缓存的 z [ l ] z^{[l]} z[l]对以后的正向和反向传播的步骤非常有用。
在反向传播步骤,同样也是第 l l l层的计算,你会需要实现一个函数,输入为 d a [ l ] da^{[l]} da[l],输出为 d a [ l − 1 ] da^{[l-1]} da[l−1]。一个小细节需要注意,输入在这里其实是 d a [ l ] da^{[l]} da[l]和缓存的 z [ l ] z^{[l]} z[l]值。输出除了 d a [ l − 1 ] da^{[l-1]} da[l−1]外,还有 d w [ l ] dw^{[l]} dw[l]和 d b [ l ] db^{[l]} db[l]。
总结起来就是,在第 l l l层会有正向函数,输入 a [ l − 1 ] a^{[l-1]} a[l−1]并且输出 a [ l ] a^{[l]} a[l]。为了计算结果,还需要参数 W [ l ] W^{[l]} W[l]和 b [ l ] b^{[l]} b[l],以及输出到缓存的 z [ l ] z^{[l]} z[l]。
然后用作反向传播的反向函数是另外一个函数,输入 d a [ l ] da^{[l]} da[l]输出 d a [ l − 1 ] da^{[l-1]} da[l−1],这会得到对激活函数的导数,计算过程需要 W [ l ] W^{[l]} W[l]和 b [ l ] b^{[l]} b[l]和 d z [ l ] dz^{[l]} dz[l],可以计算输出 d W [ l ] dW^{[l]} dW[l]和 d b [ l ] db^{[l]} db[l]。