深度学习论文: SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation及其PyTorch实现

2022-10-08 10:56:19

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation

PDF: https://arxiv.org/pdf/2209.08575.pdf

PyTorch代码: https://github.com/shanglianlm0525/CvPytorch

PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

作者分析了一些经典的语义分割网络，总结出经典的网络具备的关键属性：

基于此，不同于已有Transformer方案，提出的SegNeXt对编码器模块采用传统卷积模块设计但引入了多尺度卷积注意力，对解码器模块采用了Hamberger(自注意力的一种替代方案)进一步提取全局上下文信息。提出的SegNeXt兼具性能和速度的优势；

在Encoder部分同样采用了金字塔架构，每个构成模块采用了类似ViT的结构，但不同之处在于：本文并未使用自注意力，而是设计一种多尺度卷积注意力模块MSCA. MSCAN是VAN的多尺度版本。

如上图所示，MSCA由三部分构成：

通过堆叠MSCA而得到的不同MSCAN骨干信息,如下

解码器结构

Hamburger:

Hamburger通过去噪和完善其输入来学习可解释的全局上下文，并重新调整光谱的浓度。当仔细处理通过 MDs 回传的梯度时，具有不同 MDs 的 Hamburgers 可以对流行的全局上下文模块 self-attention 有良好的表现。