【深度学习】神经网络中几个常用的求导公式

2022-09-15 14:12:08

‍‍

亲爱的朋友们，多多有一段时间没有更新啦，主要是我在学习transformers突然开始思考几个神经网络相关的基本问题（模型结构越写越复杂，调包效果越来越好，是否还记得为什么而出发呢？），读者朋友也可以看看是否可以自如回答：

什么是链式法则？
什么是Jacobin矩阵？
Jacobin有什么用处？
梯度的定义是什么？
方向导数和梯度的关系是什么？
神经网络中张量反向传播有什么特点？
哪些特性保证了神经网络中高效的梯度计算？

我将我的总结神经网络中的数学基础写到了一起放到了github，做成了一个网站，当然网站中也会逐渐加入之前写的transformer推送内容：

https://erenup.github.io/deeplearningbasics/

还会持续更新，欢迎大家star或者提交issue/request～谢谢。

本来想一篇推送更新完，但考虑到大家时间有限，没法一次看完，于是个人觉得把最常用的章节挑出来更新一下，本文公式较多，排版尽可能简单化啦。

完整内容请查阅网站～

1. 矩阵

乘以列向量

求

可以看作函数将输入

经过

变换得到输出

,那么Jacobian矩阵

那么

由于

else 0，所以有

2. 向量等于自身,求

因为

所以

,将其放在链式法则中进行矩阵乘法时候不会改变其他矩阵。

3. 对向量中每个元素进行变换, 求

由于

所以

是一个diagonal matrix 且

矩阵乘以一个diagonal矩阵也就是每个元素进行幅度变换，因此链式法则中的矩阵乘以

相当于和

做elementwise 乘法。

5. 求

我们开始引入更复杂的情况，因为神经网络中往往包含多次链式法则的引用，这里我们假设已经知道

，直接求

。

假设神经网络的损失函数

是标量，我们想计算的是损失函数对参数

的梯度。我们可以想象神经网络这个函数输入是一个

形状的参数，输出是一个标量，结合上一章节Jacobian知识我们可以知道

形状和

一样，所以在神经网络训练的时候可以将参数减轻去参数的梯度乘以学习率。

根据链式法则，我们需要求出

。这个三维的张量不方便表示且十分复杂，因此我们先只看对

求导

。

所以只有

时候非零

所以

所以得到

假设神经网络到达softmax之前的输出为

为分类数量，那么

所以

结语

本来对于矩阵求导还有些发怵的我，在熟练以上几个公式之后发现神经网络反向传播的求导也不是那么遥不可触。希望能对大家有帮助。

【深度学习】神经网络中几个常用的求导公式

1. 矩阵

乘以列向量

求

2. 向量等于自身,求

3. 对向量中每个元素进行变换, 求

5. 求

继续阅读

GSL 系列 6 — 线性代数 5 — 完全正交分解

GSL 系列 6 — 线性代数 1 — 背景知识 1

GSL 系列 6 — 线性代数 3 — QR 分解

深度学习模型分析人类复杂疾病的准确性

疾病研究：重症肌无力

人工智能如何有效地运用于自然语言处理

新闻 | Mapbox 牵手阿里，飞猪旅行上线六大城市地图功能

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

[HTML5]自定义属性 data-* 和 jQuery.data 详解

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

无人机--飞控科普

【深度学习】神经网络中几个常用的求导公式

1. 矩阵 乘以列向量 求

2. 向量等于自身,求

3. 对向量 中每个元素进行变换, 求

5. 求

继续阅读

1. 矩阵

乘以列向量

求

3. 对向量中每个元素进行变换, 求