天天看点

吴恩达深度学习 —— 4.5 搭建深层神经网络块

如下图,这是一个层数较少的神经网络,我们选择其中一层,从第二层隐藏层的计算着手,在第l层有参数 W l [ ] W^{l[]} Wl[]和 b [ l ] b^{[l]} b[l],正向传播里有输入的激活函数,输入的前一层是 a [ l − 1 ] a^{[l-1]} a[l−1],输出是 a [ l ] a^{[l]} a[l]。 z [ l ] = W [ l ] a [ l − 1 ] + b z^{[l]}=W^{[l]}a^{[l-1]}+b z[l]=W[l]a[l−1]+b, a [ l ] = g [ l ] ( z [ l ] ) a^{[l]}=g^{[l]}(z^{[l]}) a[l]=g[l](z[l]),这就是如何从输入 a [ l − 1 ] a^{[l-1]} a[l−1]到输出的。

吴恩达深度学习 —— 4.5 搭建深层神经网络块

之后就可以把 z [ l ] z^{[l]} z[l]的值缓存起来,因为缓存的 z [ l ] z^{[l]} z[l]对以后的正向和反向传播的步骤非常有用。

在反向传播步骤,同样也是第 l l l层的计算,你会需要实现一个函数,输入为 d a [ l ] da^{[l]} da[l],输出为 d a [ l − 1 ] da^{[l-1]} da[l−1]。一个小细节需要注意,输入在这里其实是 d a [ l ] da^{[l]} da[l]和缓存的 z [ l ] z^{[l]} z[l]值。输出除了 d a [ l − 1 ] da^{[l-1]} da[l−1]外,还有 d w [ l ] dw^{[l]} dw[l]和 d b [ l ] db^{[l]} db[l]。

总结起来就是,在第 l l l层会有正向函数,输入 a [ l − 1 ] a^{[l-1]} a[l−1]并且输出 a [ l ] a^{[l]} a[l]。为了计算结果,还需要参数 W [ l ] W^{[l]} W[l]和 b [ l ] b^{[l]} b[l],以及输出到缓存的 z [ l ] z^{[l]} z[l]。

然后用作反向传播的反向函数是另外一个函数,输入 d a [ l ] da^{[l]} da[l]输出 d a [ l − 1 ] da^{[l-1]} da[l−1],这会得到对激活函数的导数,计算过程需要 W [ l ] W^{[l]} W[l]和 b [ l ] b^{[l]} b[l]和 d z [ l ] dz^{[l]} dz[l],可以计算输出 d W [ l ] dW^{[l]} dW[l]和 d b [ l ] db^{[l]} db[l]。

继续阅读