带你读论文系列之计算机视觉–SENet

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

闲谈

总有那么瞬间思念远方的故人。八月十五中秋节，让我们放下繁忙工作，回家与老人团圆举杯共餐。这是我第一次没有在家过中秋，感觉也还行。现在节日没有什么节日气氛，最重要的家人团聚。各位小可爱们，中秋佳节，愿你快快乐乐，开开心心；健健康康，轻轻松松；团团圆圆，恩恩爱爱；和和美美，红红火火！❤️

前言

论文：Squeeze-and-Excitation Networks

代码

一个可嫁接/整合的Block 😇

Momenta在ImageNet2017挑战赛中夺冠的网络架构SENet。本文作者为Momenta高级研发工程师胡杰。

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

Momenta成立于2016年，是自动驾驶公司。其核心技术是基于深度学习的环境感知、高精度地图、驾驶决策算法。产品包括不同级别的自动驾驶方案，以及衍生出的大数据服务。Momenta专注于“打造自动驾驶大脑”，拥有世界专业的深度学习专家，如图像识别领域框架Faster R-CNN和ResNet的作者， ImageNet 2015、ImageNet 2017、MS COCO Challenge 2015等多项比赛。团队成员主要来源于清华大学、麻省理工学院、微软亚洲研究院等高校及研究机构，以及百度、阿里、腾讯、华为、商汤等知名高科技公司，拥有深厚的技术积累、极强的技术原创力和丰富的行业经验。

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

SENet获得了ImageNet2017大赛分类任务的冠军，这也是最后一届ImageNet比赛，论文同时获得了CVPR2018的oral。而且，SENet思路简单，实现方便，计算量小，模块化涉及，可以无缝嵌入主流的网络结构中，实践不断证明其可以使得网络获得更好的任务效果。

卷积核作为卷积神经网络的核心，通常被看做是在局部感受野上，将空间上（spatial）的信息和特征维度上（channel-wise）的信息进行聚合的信息聚合体。卷积神经网络由一系列卷积层、非线性层和下采样层构成，这样它们能够从全局感受野上去捕获图像的特征来进行图像的描述。

摘要

卷积操作是CNN核心其可融合空间和通道的特征；
已经有人研究增强空间特征的提取；
本文针对通道特征提出SEblock，其可自适应的校正通道特征；
SEblock可堆叠成SENet，并在多个数据集上获得较好的效果；
SENet仅增加少量参数，就大幅提升精度；
获得ILSVRC冠军；

对ImageNet数据集进行了广泛评估。SENets不局限于某个特定的数据集或任务。通过利用SENets，我们在ILSVRC2017分类竞赛中排名第一。我们的最佳模型集合在测试集上实现了2.251%的最高5级错误1。与前一年的冠军作品相比，这代表了大约25%的相对改进（前五名的误差为2.991%）。

从通道维度入手，设计SEBlock。提出一种机制可对特征进行校正，校正后的特征可保留有价值的特征，剔除没价值的特征，即注意力机制。

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

SE构建块的结构如上图所示。特征首先通过Squeeze操作，它通过在其空间维度（H×W）上聚合特征图来产生通道描述符。该描述符的功能是生成通道特征响应的全局分布的嵌入，允许来自网络的全局感受野的信息被其所有层使用。聚合之后是激励操作，它采用简单的self-gating mechanism的形式，将嵌入作为输入并产生每通道调制权重的集合。这些权重应用于特征映射U以生成SE块的输出，该输出可以直接馈入网络的后续层。可以通过简单地堆叠SE块的集合来构建SE网络(SENet)。此外，这些SE块还可以用作网络架构中一定深度范围内原始块。

论文详情

思路：让我们的神经网络使用全局信息来增强有用的信息，同时抑制无用的信息。

假设：

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

其中，

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

令K = [K1，K2,…KC]，其中每个元素Ki为filter kernel

于是：

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

其中*代表了conv运算（忽略bias）

Squeeze阶段：

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

Excitation阶段：

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

VGGNets和Inception模型表明，增加网络的深度可以显着提高其能够学习的表示质量。通过调节每层输入的分布，批量归一化(BN)为深度网络中的学习过程增加了稳定性，并产生了更平滑的优化表面。在这些工作的基础上，ResNets证明了用shortcut connection来学习更深入、更强大的网络是可能的。Highway Networks引入了一种self-gating machine来调节信息流捷径连接。在这些工作之后，网络层之间的连接有了进一步的重构，其中显示了对深度网络的学习和表示特性的有希望的改进。

分组卷积：ResNeXt
多分支网络GoogLeNet系列
1*1卷积的应用：Xception 等

以往的研究通道之间关系时，采用的是局部信息。本论文提出的方法采用全局方法。

设计和开发新的CNN 架构是一项困难的工程任务，通常需要选择许多新的超参数和层配置。相比之下，SE块的结构很简单，可以直接用于现有的最先进的架构中，通过用SE对应的组件替换，可以有效提高性能。SE模块在计算上也是轻量级的，只在模型复杂性和计算负担上有轻微增加。

SENet优势：

SE block设计简单，即插即用;
SE block参数少

Google团队提出MnasNet（MnasNet:Platform-AwareNeuralArchitectureSearchforMobile

）使用强化学习的思路，提出一种资源约束的终端CNN模型的自动神经结构搜索方法。MnasNet中用了SEblock。

注意力机制可理解为将最有意义的部分给予更多“关注”；
注意力机制已在序列学习图像理解、定位、图像描述、唇语识别任务中广泛应用；
本论文的block 则是针对通道维度进行注意力机制。

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

首先是 Squeeze 操作，我们顺着空间维度来进行特征压缩，将每个二维的特征通道变成一个实数，这个实数某种程度上具有全局的感受野，并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野，这一点在很多任务中都是非常有用的。

其次是 Excitation 操作，它是一个类似于循环神经网络中门的机制。通过参数 w 来为每个特征通道生成权重，其中参数 w 被学习用来显式地建模特征通道间的相关性。

最后是一个 Reweight 的操作，我们将 Excitation 的输出的权重看做是经过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。

SE网络可以通过简单地堆叠SE构件块的集合来生成。SE块也可以用作体系结构中任何深度的原始块的直接替换。但是，虽然构建模块的模板是通用的，它在不同深度处的角色适应网络的需求。在早期层中，它学会以类不可知的方式激发信息特性，支持共享的底层表示的质量。在后面的层次中，SE块变得越来越专业化，并以 highly class-speciﬁc的方式响应不同的输入。因此，SE块进行特征重新校准的好处可以通过整个网络进行累加。SE块的设计很简单，可以直接与现有最先进的体系结构一起使用，这些体系结构的模块可以通过直接替换SE模块来加强。

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

用公式描述conv2d过程，并且将卷积核按通道维度来理解。

conv2d操作将空间信息与通道信息混合到了一起。本文目的是提高通道维度上信息的敏感度，具体操作为Squeeze和excitation。

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

提出问题：U没有很好的利用局部感受野之外的上下文信息。

解决问题：利用全局池化，将空间信息压缩为通道描述符，即数据变为通道维度的形式。该操作可看为图像的局部描述算子，这样的操作在特征工程常见。

为了获取通道之间的信息，加入Excitation；
为实现该目标，需要遵循两个准则：

（1）该操作要能学习通道之间的非线性关系；

（2）确保多个通道能够被“强调”；
采用sigmoid 机制来实现；

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

上图为激活函数挑选的实验。结论：sigmoid最好。

与其他架构进行整合。论文中把ResNet和Inception进行整合。如下两张图所示。

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

原始Inception模块（左）和SE-Inception模块（右）的架构。

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

原始Residual模块（左）和SE-ResNet模块（右）的模式。

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

作为这种轻微的额外计算负担的交换，SE-ResNet-50的准确性超过了ResNet-50的准确性，并且实际上接近了需要~7.58GFLOPs的更深的ResNet-101网络的准确性。

FC层的权重参数引入的总数由下式给出：

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

其中r表示缩减率，S表示阶段数（阶段是指在公共空间维度的特征图上操作的块的集合），Cs表示输出通道的维度，Ns表示阶段重复块的数量（当偏置项用于FC层时，引入的参数和计算成本通常可以忽略不计）。SE-ResNet-50引入了超过250万个额外参数。

一个block是2C^2/r ；
一个stage有N个block ；
一个模型有S个stage 所以得到以上公式；

SEblock插入CNN中是很灵活的，因此有多个方式。

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

三种变体：(1)SE-PRE块，其中SEblock在残差单元之前移动；(2)SE-POST块，其中SE单元在与恒等分支求和后移动（在ReLU之后）和(3)SE-Identity 块，其中SE单元放置在与残差单元平行的恒等连接上。这些变体如图5 所示，每个变体的性能在表14中报告。我们观察到SE-PRE、SE-Identity和提议的SE块的性能相似。

SE-ResNet完整架构✊

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

（左）ResNet-50。（中）SE-ResNet-50。（右）带有32×4d模板的SE-ResNeXt-50。括号内列出了残差积木的特定参数设置的形状和操作，而在外面显示了一个阶段中堆叠的积木数量。Byfcin后面的内括号表示一个SE模块中两个全连接层的输出维度。

实验

讨论点

横向对比

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet
数值越小越好。
调整Reduction比率

Reduction比率空值这Dense layer 1 的neuron的数量

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

论文推荐r = 16

GAP v.s. GMP

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet
结果显示用Avg Pooling更好
Excitation 阶段中不同的Activation函数对比

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet
SE Block的不同位置

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet
结果显示结果都差不多。
SE Block在ResNet的不同位置

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

把SE Block都安插进去效果最好！在深层安插比浅层效果好一点。

Squeeze的有无带来的影响

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

肯定是有Squeeze效果好了。

对Excitation的探索

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

早期的Layer更加general，后期的Layer更Specific，5-2是一个拐点。

移除后期的layer可以减少param，同时模型不会受太大的影响。

总结

SENet对卷积层通道数进行权值评分，可以很好与其他网络(VGG, ResNet)结合。

相比于增加模型宽度(WRN中的width, ResNeXt中的cardinality)，深度(depth)，SE Block权重通道值，增加的参数少，增加的计算量小，增强效果好

最后说一句，中秋快乐！

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

带你读论文系列之计算机视觉--SENet带你读论文系列之计算机视觉–SENet

带你读论文系列之计算机视觉–SENet

闲谈

前言

论文详情

实验

总结

继续阅读

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

吴恩达机器学习笔记（3）

吴恩达j机器学习之过拟合

吴恩达机器学习(一) 介绍

深度学习模型分析人类复杂疾病的准确性

疾病研究：重症肌无力

人工智能如何有效地运用于自然语言处理

新闻 | Mapbox 牵手阿里，飞猪旅行上线六大城市地图功能

【趋高机器视觉】机器视觉技术原理解析及解决方案

[HTML5]自定义属性 data-* 和 jQuery.data 详解

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

无人机--飞控科普