理解卷积神经网络的利器：9篇重要的深度学习论文（下）

继“理解卷积神经网络的利器：9篇重要的深度学习论文（上）”文章，本文继续介绍过去五年内发表的一些重要论文，并探讨其重要性。论文1—5涉及通用网络架构的发展，论文6—9则是其他网络架构的论文。点击原文即可查看更详细的内容。

5.Microsoft ResNet（2015）

残差块

残差块的原理是，输入x通过卷积-残差函数-卷积系列，得到输出F(x)，然后将该结果加到原始输入x中，用H(x)= F(x)+ x表示。在传统的卷积神经网络中，H(x)=F(x)。因此，我们不只计算从x到F(x)变换，而是要计算H(x)= F(x)+ x。下图中的最小模块正在计算一个“增量”或对原始输入x做轻微改变以获得轻微改变后的表示。作者认为，“优化残差映射比优化原始未引用的映射要容易。”

残差块可能比较有效的另一个原因是，在反向传播的后向传递期间，由于加法运算可以作用于梯度，梯度将会更容易地通过残差块。

主要论点

1.“极端深度” - Yann LeCun。

2.包含152层

3.有趣的是，仅在经过前两层之后，将数组从224*224压缩到56x56。

5.该模型尝试构建了一个1202层的网络，可能是由于过拟合，测试精度较低。

重要性

3.6％的误差率！这一点足够重要。ResNet模型是目前我们所拥有的最好的卷积神经网络架构，也是残差学习理念的一个伟大创新。我相信即使在彼此之上堆叠更多层，性能也不会再有大幅度的提升了，但肯定会有像过去两年那样有创意的新架构。

6.基于区域的卷积神经网络：R-CNN（2013年）；Fast R-CNN（2015年）; Faster R-CNN（2015年）

R-CNN架构的目标解决对象检测问题。现在，我们想对给定的图像上所包含的所有对象绘制边界框，可分为两步：候选区域的选择和分类。

Fast R-CNN

对原始模型进行改进原因有三：模型训练需要经历多个步骤（ConvNets→支持向量机→边界框回归器）；计算成本很高，运行速度很慢（R-CNN处理一张图像需要53秒）。为了提高运行速度，Fast R-CNN共享了不同候选区域之间卷积层的计算，交换了候选区域的生成顺序，同时运行卷积神经网络。在这个模型中，图像图像首先送入卷积网络，然后从卷积网络的最后一个特征映射获得候选区域的特征，最后被送入全连接层、回归以及分类头部。

Faster R-CNN

Faster R-CNN致力于将R-CNN和Fast R-CNN比较复杂的训练步骤简单化。作者在最后一个卷积层后插入候选区域生成网络，该网络能够查看最后的卷积特征映射并产生候选区域。后面使用与R-CNN相同的方法：感兴趣区域池化、全连接层、分类和回归头。

除了能够准确识别图像中的特定对象，Faster R-CNN也能够对该对象进行准确定位，这是一个质的飞跃。现在，Faster R-CNN已经成为对象检测程序的一个标准。

7.生成敌对网络（2014）

这个对抗的例子着实让很多研究人员感到惊讶，并且迅速成为了一个大家感兴趣的话题。现在让我们来谈谈生成对抗网络，它包含两个模型：一个生成模型和一个判别模型。判别器用来确定给定的图像是否真的自数据集，还是人为创建的；生成器用来是创建图像，以便判别器得到训练生成正确的输出。这可以看作一个博弈游戏，打个比方：生成模型就像“伪造者团队，试图制造和使用假币”；而判别模型就像“警察，试图检测假币”。生成器试图欺骗判别器，而判别器努力不被欺骗。随着模型的训练，这两种方法都会得到改进，直到“真币与假币无法区分”。

8.Generating Image Descriptions（2014）

这真是令人难以置信！我们来看看这与普通的卷积神经网络有何区别。传统的卷积神经网络上，训练数据中的每个图像都有一个明确的标签。论文中描述的模型已经训练了样例，该样例具有与每个图像相关联的文本。这种类型的标签被称为弱标签，其中文本片段是指图像的未知部分。使用这些训练数据，深层神经网络能够“推断出文本片段和他们所要描述的区域之间的潜在关系”（引自论文）。另一个神经网络将图像转换成一个文本描述。让我们分别看看这两个部分：对齐模型和生成模型。

对齐模型

对齐模型的目标是能够将视觉图像和文本描述对齐，该模型将图像和文本转化为二者之间的相似性度量值。

首先将图像输入R-CNN模型，检测单个对象，该模型在ImageNet数据集上进行训练，排名前19位（加上原始图像）的对象区域被嵌入到500维空间，现在在每个图像中，我们都有20个不同的500维向量（用v表示），用来描述图像的信息。现在我们需要关于文本的信息，将文本嵌入到同一个多维度空间中，这一步骤采用双向递归神经网络完成。从更高层次来看，这是为了解释给定文本中单词的上下文信息。由于图像和文本的信息都在相同的空间中，因此我们可以计算内部表示，来输出相似性度量。

生成模型

对齐模型的主要目的是创建一个数据集：包含图像区域和对应的文本。而生成模型将从该数据集中进行学习，生成给定图像的描述。该模型将图像送入一个卷积神经网络，由于全连接层的输出成为另一个循环神经网络的输入，softmax层则可以被忽略。对于那些不熟悉循环神经网络的人来说，该模型可以理解为产生句子中不同单词的概率分布（循环神经网络也需要像卷积神经网络一样进行训练）。

Generating Image Descriptions的创新之处在于：使用看似不同的循环神经网络和卷积神经网络模型创建了一个非常实用的应用程序，它以某种方式将计算机视觉和自然语言处理领域结合在一起。在处理跨越不同领域的任务时如何使计算机和模型变得更加智能方面，它的新想法为我们打开一扇新的大门。

9.空间变换网络（Spatial Transformer Network）（2015年）

处理空间不变性的传统卷积神经网络模型中的实体是最大池化层，一旦我们知道原始输入数组（具有较高的激活值）中的特定特征，其确切位置就不如它相对于其他特征的相对位置那么重要。而这种新的空间变换器是动态的，它会针对每个输入图像产生不同的变换，而并不会像传统的最大池化那样简简单和预定义。我们来看看这个变换模块是如何运行的。该模块包括：

1.定位网络，将输入数组转化并输出必须使用的空间变换参数。对于仿射变换来说，参数或θ可以是六维的。

2采样网格，这是使用本地化网络中创建的仿射变换（θ）对常规网格进行变形的结果。

3.采样器，将输入特征映射进行变形。

这个模块可以放在卷积神经网络的任何一个节点，基本上可以帮助网络学习如何对特征映射进行变换，从而最大限度地减少训练期间的成本函数。

这篇文章之所以能够引起我的注意，其主要原因就是对卷积神经网络的改进不一定需要对网络的整体架构做巨大的改变，我们不需要再创建下一个ResNet或Inception架构。本文对输入图像进行仿射变换这一思路，使模型更加适用于图像的平移、缩放和旋转。

以上为译文。

文章原标题《A Beginner's Guide to Understanding Convolutional Neural Networks》，译者：Mags，审校：袁虎。

理解卷积神经网络的利器：9篇重要的深度学习论文（下）

继续阅读

Android-opencv之CVCamera

基于ORB特征点匹配的对极几何约束实现（源码+讲解）

使用hector构图_如何使用均衡的构图拍摄更清晰的照片

GMS：基于网格运动统计的快速极度鲁棒的特征匹配摘要1 简介2 本文的方法3 应用于快速记分的网格框架4 实验 5 结论

如何使用前景和背景创建更清晰的照片

在Ubuntu16.04上提取相邻序列图像之间的ORB的特征点，并用暴力方法找到匹配点并连线一、什么是ORB特征二、什么是暴力匹配三、实现代码四、运行方法

Matlab中将二维灰度图像三维显示

车道线检测

自监督｜「CoCLR」视频自监督对比学习笔记

视频对象分割（Video Object Segmentation）研究小记任务定义与数据集技术路线分类基于神经网络的模型总结

opencv视觉跟踪——消除背景建模

图形处理单元(GPU)的演进

2021-09-30三维点云测量正方形包裹体积

DOG算子

K-近邻算法以及图像分类应用

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络