原创 | 文 BFT机器人

最近提出的任意分割模型(Segment Anything Model，SAM)在许多计算机视觉任务中产生了重大影响。它正在成为许多高级任务的基础步骤，如图像分割、图像标题和图像编辑。然而，其巨大的计算成本阻碍了其在工业场景中的广泛应用，它需要计算来自高分辨率输入的Transformer架构。

在本文中，提出了一种具有相当性能的基本任务的加速替代方法。通过将任务重新表述为片段生成和提示，作者发现具有实例分割分支的常规CNN检测器也可以很好地完成该任务。

具体而言，作者将该任务转换为研究得很好的实例分割任务，并仅使用SAM作者发布的SA-1B数据集的1/50直接训练现有的实例分割方法。使用文章的方法时，以高50倍的运行速度实现了与SAM方法相当的性能。

所提出的加速替代方法与SAM模型相比如何？

提出的快速SAM方法（FastSAM）在性能上与SAM模型相当，但运行速度比SAM快50倍（32×32）和170倍（64×64）。这使得FastSAM成为工业应用的良好选择，例如道路障碍检测、视频实例跟踪和图像处理。在某些图像上，FastSAM甚至能够生成更好的大型对象的分割掩码。因此，FastSAM在性能方面与SAM模型相当，但具有更快的运行速度。

SAM模型在工业应用中面临的主要挑战是什么？

SAM模型在工业应用中面临的主要挑战是与Transformer（ViT）模型相关的大量计算资源需求。与卷积神经网络相比，ViT模型因其高计算资源需求而脱颖而出，这在实时应用中会带来障碍。这个限制因此阻碍了分割任何物体任务的进展和潜力。因此，SAM模型在工业应用中面临着计算资源需求高的挑战。

将任务转换为实例分割任务并使用较小的数据集训练现有方法的过程

首先，将输入图像分成多个小块，然后使用CNN检测器对每个小块进行检测。接下来，将检测到的每个对象的边界框输入到实例分割模型中，以生成对象的分割掩码。最后，将所有分割掩码组合成完整的图像分割掩码。

论文原理

在文章的Methodology部分，介绍了提出的方法Fast-SAM的概述。该方法包括两个阶段：全实例分割和提示引导选择。

第一个阶段是基础阶段，第二个阶段是任务导向的后处理。与端到端的Transformer模型不同，该方法引入了许多与视觉分割任务相匹配的人类先验知识，如卷积的局部连接。

此外，该方法还介绍了分割任何物体任务的解耦方法，将其分解为检测和分割所有对象的阶段，以及根据提供的提示来分离感兴趣的特定对象的阶段。这种解耦方法显著降低了任务的复杂性，从而提供了实时分割任何物体的可能性。

图1 FastSAM网络结构，由全实例分割和提示引导选择两部分构成

A. 基础阶段

基础阶段指的是Fast-SAM方法的第一个阶段，即全实例分割。该阶段依赖于基于卷积神经网络（CNN）的检测器的实现，它可以生成图像中所有实例的分割掩码。在这个阶段中，使用现有的实例分割方法，并使用SAM作者发布的SA-1B数据集的1/50进行直接训练。这种方法可以在保持性能的同时，大大减少计算资源的需求，从而使其成为实时应用的良好选择。

B. 任务导向的后处理

任务导向的后处理是Fast-SAM方法的第二个阶段。在这个阶段中，根据提供的信息，输出与提示对应的感兴趣区域（region-of-interest）。具体来说，该方法利用卷积神经网络（CNN）的计算效率，通过对全实例分割阶段生成的分割掩码进行后处理，提取与提示相关的特定对象的区域。这种后处理的原理是基于任务导向的选择，通过引导模型关注感兴趣的特定对象，从而实现对任意物体的实时分割。

C. Prompt-guided Selection

Prompt-guided Selection从全实例分割结果中提取与提示相关的特定对象的区域。该阶段主要涉及使用各种提示来识别感兴趣的特定对象，包括点提示、框提示和文本提示。

具体来说，点提示是通过将选定的点与从第一阶段获得的各种掩码进行匹配，以确定点所在的掩码。类似于SAM，该方法使用前景/背景点作为提示。

框提示是通过将提供的边界框与第一阶段生成的分割掩码进行匹配，以确定感兴趣的对象的位置和形状。

文本提示是通过将自然语言文本转换为掩码，然后将其与第一阶段生成的分割掩码进行匹配，以确定感兴趣的对象的位置和形状。

Prompt-guided Selection阶段的目标是根据任务需求，从全实例分割结果中筛选出感兴趣的特定对象，以便进一步分析或处理。

图2 FastSAM分割结果

D.实验效果

1. 文章中展示了使用点提示、框提示和everything模式下的Fast-SAM分割的可视化结果，并将其与SAM和真实标注进行了比较。

图3 三种分割可视化的结果(胶囊)

图4 三种分割可视化的结果(场景图片)。

2、在BSDS500数据集上进行的零样本边缘预测实验，并将Fast-SAM的结果与SAM进行了比较。结果表明，Fast-SAM在边界提取任务上取得了与SAM相当的结果。

图5 边界提取效果

图6 不同算法边界提取的比较

论文资料：

[1] Fast Segment Anything, 2306.12156v1.pdf (arxiv.org)

[2] https://github.com/CASIA-IVA-Lab/FastSAM

更多精彩内容请关注公众号：BFT机器人

(公众号后台回复“优惠活动”查看BFT机器人年终钜惠福利内容)

本文为原创文章，版权归BFT机器人所有，如需转载请与我们联系。若您对该文章内容有任何疑问，请与我们联系，将及时回应。

论文解读｜中国促分割技术实现突破，速度提升50倍！

所提出的加速替代方法与SAM模型相比如何？

SAM模型在工业应用中面临的主要挑战是什么？

将任务转换为实例分割任务并使用较小的数据集训练现有方法的过程

论文原理

继续阅读

【预训练语言模型】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding（BERT）BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding（BERT）

[论文解读]Explaining Knowledge Distillation by Quantifying the KnowledgeExplaining Knowledge Distillation by Quantifying the Knowledge

论文解读：（TransR）Learning Entity and Relation Embeddings for Knowledge Graph Completion

图像分割UNet系列------UNet3+（UNet3plus）详解

ACL2020 | SongNet(格式可控的文本生成)背景方法实验总结

论文解读｜VoxelNet:基于点云的3D物体检测的端到端学习

解读 Gaussian Boson Sampling for finding dense subgraphs

论文解读｜PF-Net：用于 3D 点云补全的点分形网络

文献阅读笔记：Word Translation Without Parallel Data0. 背景0.1 摘要1. 介绍2. 模型3. 训练和框架选择4. 实验5. 相关工作6. 总结

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

论文解读｜进一步融合：体积融合中6D姿态估计的多对象推理

[论文解读]DeepHunter: Hunting Deep Neural Network Defects via Coverage-Guided FuzzingDeepHunter: Hunting Deep Neural Network Defects via Coverage-Guided Fuzzing

ICLR 2021 | Autoregressive Entity Retrieval基本信息摘要介绍模型实验结果总结

论文解读：MisGAN: learning from incomplete data with generative adversarial networks.MisGANAbstractIntroductionMethod

[论文解读]Threat of Adversarial Attacks on Deep Learning in Computer Vision: A SurveyThreat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey