推导可参考https://www.zhihu.com/question/24827633
这里参考大神论文,进行总结记录一下。
前向传播可以总结为:
后向传播总结可以看下图描述:
可以看到,每一层的误差都需要乘以激活函数的导数值,这样网络越深,层误差就越小,E对W的梯度也就越小,浅层的权值参数越难更新。
推导可参考https://www.zhihu.com/question/24827633
这里参考大神论文,进行总结记录一下。
前向传播可以总结为:
后向传播总结可以看下图描述:
可以看到,每一层的误差都需要乘以激活函数的导数值,这样网络越深,层误差就越小,E对W的梯度也就越小,浅层的权值参数越难更新。