原創 | 文 BFT機器人

最近提出的任意分割模型(Segment Anything Model，SAM)在許多計算機視覺任務中産生了重大影響。它正在成為許多進階任務的基礎步驟，如圖像分割、圖像标題和圖像編輯。然而，其巨大的計算成本阻礙了其在工業場景中的廣泛應用，它需要計算來自高分辨率輸入的Transformer架構。

在本文中，提出了一種具有相當性能的基本任務的加速替代方法。通過将任務重新表述為片段生成和提示，作者發現具有執行個體分割分支的正常CNN檢測器也可以很好地完成該任務。

具體而言，作者将該任務轉換為研究得很好的執行個體分割任務，并僅使用SAM作者釋出的SA-1B資料集的1/50直接訓練現有的執行個體分割方法。使用文章的方法時，以高50倍的運作速度實作了與SAM方法相當的性能。

所提出的加速替代方法與SAM模型相比如何？

提出的快速SAM方法（FastSAM）在性能上與SAM模型相當，但運作速度比SAM快50倍（32×32）和170倍（64×64）。這使得FastSAM成為工業應用的良好選擇，例如道路障礙檢測、視訊執行個體跟蹤和圖像處理。在某些圖像上，FastSAM甚至能夠生成更好的大型對象的分割掩碼。是以，FastSAM在性能方面與SAM模型相當，但具有更快的運作速度。

SAM模型在工業應用中面臨的主要挑戰是什麼？

SAM模型在工業應用中面臨的主要挑戰是與Transformer（ViT）模型相關的大量計算資源需求。與卷積神經網絡相比，ViT模型因其高計算資源需求而脫穎而出，這在實時應用中會帶來障礙。這個限制是以阻礙了分割任何物體任務的進展和潛力。是以，SAM模型在工業應用中面臨着計算資源需求高的挑戰。

将任務轉換為執行個體分割任務并使用較小的資料集訓練現有方法的過程

首先，将輸入圖像分成多個小塊，然後使用CNN檢測器對每個小塊進行檢測。接下來，将檢測到的每個對象的邊界框輸入到執行個體分割模型中，以生成對象的分割掩碼。最後，将所有分割掩碼組合成完整的圖像分割掩碼。

論文原理

在文章的Methodology部分，介紹了提出的方法Fast-SAM的概述。該方法包括兩個階段：全執行個體分割和提示引導選擇。

第一個階段是基礎階段，第二個階段是任務導向的後處理。與端到端的Transformer模型不同，該方法引入了許多與視覺分割任務相比對的人類先驗知識，如卷積的局部連接配接。

此外，該方法還介紹了分割任何物體任務的解耦方法，将其分解為檢測和分割所有對象的階段，以及根據提供的提示來分離感興趣的特定對象的階段。這種解耦方法顯著降低了任務的複雜性，進而提供了實時分割任何物體的可能性。

圖1 FastSAM網絡結構，由全執行個體分割和提示引導選擇兩部分構成

A. 基礎階段

基礎階段指的是Fast-SAM方法的第一個階段，即全執行個體分割。該階段依賴于基于卷積神經網絡（CNN）的檢測器的實作，它可以生成圖像中所有執行個體的分割掩碼。在這個階段中，使用現有的執行個體分割方法，并使用SAM作者釋出的SA-1B資料集的1/50進行直接訓練。這種方法可以在保持性能的同時，大大減少計算資源的需求，進而使其成為實時應用的良好選擇。

B. 任務導向的後處理

任務導向的後處理是Fast-SAM方法的第二個階段。在這個階段中，根據提供的資訊，輸出與提示對應的感興趣區域（region-of-interest）。具體來說，該方法利用卷積神經網絡（CNN）的計算效率，通過對全執行個體分割階段生成的分割掩碼進行後處理，提取與提示相關的特定對象的區域。這種後處理的原理是基于任務導向的選擇，通過引導模型關注感興趣的特定對象，進而實作對任意物體的實時分割。

C. Prompt-guided Selection

Prompt-guided Selection從全執行個體分割結果中提取與提示相關的特定對象的區域。該階段主要涉及使用各種提示來識别感興趣的特定對象，包括點提示、框提示和文本提示。

具體來說，點提示是通過将標明的點與從第一階段獲得的各種掩碼進行比對，以确定點所在的掩碼。類似于SAM，該方法使用前景/背景點作為提示。

框提示是通過将提供的邊界框與第一階段生成的分割掩碼進行比對，以确定感興趣的對象的位置和形狀。

文本提示是通過将自然語言文本轉換為掩碼，然後将其與第一階段生成的分割掩碼進行比對，以确定感興趣的對象的位置和形狀。

Prompt-guided Selection階段的目标是根據任務需求，從全執行個體分割結果中篩選出感興趣的特定對象，以便進一步分析或處理。

圖2 FastSAM分割結果

D.實驗效果

1. 文章中展示了使用點提示、框提示和everything模式下的Fast-SAM分割的可視化結果，并将其與SAM和真實标注進行了比較。

圖3 三種分割可視化的結果(膠囊)

圖4 三種分割可視化的結果(場景圖檔)。

2、在BSDS500資料集上進行的零樣本邊緣預測實驗，并将Fast-SAM的結果與SAM進行了比較。結果表明，Fast-SAM在邊界提取任務上取得了與SAM相當的結果。

圖5 邊界提取效果

圖6 不同算法邊界提取的比較

論文資料：

[1] Fast Segment Anything, 2306.12156v1.pdf (arxiv.org)

[2] https://github.com/CASIA-IVA-Lab/FastSAM

更多精彩内容請關注公衆号：BFT機器人

(公衆号背景回複“優惠活動”檢視BFT機器人年終钜惠福利内容)

本文為原創文章，版權歸BFT機器人所有，如需轉載請與我們聯系。若您對該文章内容有任何疑問，請與我們聯系，将及時回應。

論文解讀｜中國促分割技術實作突破，速度提升50倍！

所提出的加速替代方法與SAM模型相比如何？

SAM模型在工業應用中面臨的主要挑戰是什麼？

将任務轉換為執行個體分割任務并使用較小的資料集訓練現有方法的過程

論文原理

繼續閱讀

【預訓練語言模型】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding（BERT）BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding（BERT）

[論文解讀]Explaining Knowledge Distillation by Quantifying the KnowledgeExplaining Knowledge Distillation by Quantifying the Knowledge

論文解讀：（TransR）Learning Entity and Relation Embeddings for Knowledge Graph Completion

圖像分割UNet系列------UNet3+（UNet3plus）詳解

ACL2020 | SongNet(格式可控的文本生成)背景方法實驗總結

論文解讀｜VoxelNet:基于點雲的3D物體檢測的端到端學習

解讀 Gaussian Boson Sampling for finding dense subgraphs

論文解讀｜PF-Net：用于 3D 點雲補全的點分形網絡

文獻閱讀筆記：Word Translation Without Parallel Data0. 背景0.1 摘要1. 介紹2. 模型3. 訓練和架構選擇4. 實驗5. 相關工作6. 總結

【配準】弱監督(Weakly-Supervised)系列配準論文閱讀

論文解讀｜進一步融合：體積融合中6D姿态估計的多對象推理

[論文解讀]DeepHunter: Hunting Deep Neural Network Defects via Coverage-Guided FuzzingDeepHunter: Hunting Deep Neural Network Defects via Coverage-Guided Fuzzing

ICLR 2021 | Autoregressive Entity Retrieval基本資訊摘要介紹模型實驗結果總結

論文解讀：MisGAN: learning from incomplete data with generative adversarial networks.MisGANAbstractIntroductionMethod

[論文解讀]Threat of Adversarial Attacks on Deep Learning in Computer Vision: A SurveyThreat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey