天天看點

ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?

作者:極市平台

作者丨AFzzz

來源丨Smarter

編輯丨極市平台

ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?

論文連結:1-2周放arxiv

代碼連結:https://github.com/AFeng-x/SMT

01文章介紹

近年來,基于Transformer和CNN的視覺基礎模型取得巨大成功。有許多研究進一步地将Transformer結構與CNN架構結合,設計出了更為高效的hybrid CNN-Transformer Network,但它們的精度仍然不盡如意。本文介紹了一種新的基礎模型SMT(Scale-Aware Modulation Transformer),它以更低的參數量(params)和計算量(flops)取得了大幅性能的提升。

不同于其他CNN-Transformer結合的方案,SMT基于卷積計算設計了一個新穎的輕量尺度感覺調制單元Scale-Aware Modulation(SAM),它能夠捕捉多尺度特征的同時擴充感受野,進一步增強卷積調制能力。此外,SMT提出了一種進化混合網絡Evolutionary Hybrid Network(EHN),它能夠有效地模拟網絡從淺層變深時捕捉依賴關系從局部到全局的轉變,進而實作更優異的性能。在ImagNet、COCO以及ADE20k等任務上都驗證了該模型的有效性。值得一提的是,SMT在ImageNet-22k上預訓練後以僅僅80.5M的參數量在ImageNet-1k上達到了88.1%的精度。

02出發點

對于多層級的網絡架構來說,由于淺層特征圖分辨率大的原因,自注意力的二次複雜性會帶來嚴重的計算負擔。是以,如何為淺層stage設計高效的attention計算機制是十分重要的。

  • 回顧以往的大部分Hierarchical(Multi-scale)的模型,以Swin為代表,以及後續的CvT,PvT,Shunted Transformer等等,它們的主要貢獻點都是設計出了一種更高效的attention計算單元,比如local attention,lightweight convolution attention等等。

ViT論文中提出,Transformer模型的注意力捕捉依賴關系為,淺層捕捉local資訊,深層捕捉global資訊,而這種特性在多層級網絡架構上也會出現。

  • 作者認為,模拟并模組化這種捕捉依賴過渡是重要且有效的。
ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?

03SMT架構算法

ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?

SMT的總體架構如圖1所示。整個網絡包括四個階段,每個階段的下采樣率為{4, 8, 16, 32}。我們并非和FocalNet一樣建構一個無注意力機制的網絡,而是首先在前兩個階段采用文章提出的尺度感覺調制(SAM),然後在倒數第二個階段中依次堆疊一個SAM Block和一個多頭自注意力(MSA) Block,以模組化從捕捉局部到全局依賴關系的轉變。對于最後一個階段,我們僅使用MSA塊來有效地捕捉長距離依賴關系。

3.1 Scale-Aware Modulation子產品

ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?
  • 多頭混合卷積MHMC(Multi-Head Mixed Convolution)

在MHMC中,我們引入了具有不同卷積核大小的多個卷積層,使其能夠捕捉多個尺度上的空間特征。當我們将N head設定得較大時,能夠引入大卷積核來擴大感受野,增強其模組化長距離依賴關系的能力。如圖2(b)所示,MHMC将輸入通道分為N個頭,對每個頭應用獨立的深度可分離卷積。我們将卷積核大小初始化為3x3,并逐頭遞增。這種方法使得我們能夠人為的通過調整頭的數量來調節感受野的範圍和多粒度資訊。

ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?
  • 多尺度感覺聚合SAA(Scale-Aware Aggregation)

為了增強MHMC中多個頭之間的資訊互動,我們引入了一種新的輕量化聚合子產品,稱為多尺度感覺聚合(SAA),如圖2(c)所示。SAA首先對MHMC生成的不同粒度的特征進行重組和分組。具體而言,我們從每個頭中選擇一個通道來建構一個組,然後在每個組内進行up-down的特征融合,進而增強多尺度特征的多樣性。值得注意的是,Num_group = C / N_head,C為輸入通道數,這意味着組的數量與MHMC中頭的數量成反比,每個組裡隻包含N個特征通道。随後,我們使用1x1卷積進行組内-組間模式的跨組資訊融合,進而實作輕量且高效的聚合效果。

ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?

如圖3所示,我們可視化出SAA前和SAA後的特征圖,可以觀察到SAA子產品加強了語義相關的低頻信号,并準确地聚焦于目标物體最重要的部分。與聚合之前的卷積映射相比,SAA子產品展示了更好的能力來捕捉和表示視覺識别任務的關鍵特征。

ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?
  • 尺度感覺調制器SAM(Scale-Aware Modulation)

如圖2(a)所示,在使用MHMC捕捉多尺度空間特征并通過SAA進行聚合後,我們獲得一個輸出特征圖,我們稱之為調制器Modulator。然後,我們使用标量乘積采用這個調制器來調制value V。

ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?

3.2 混合進化網絡Evolutionary Hybrid Network

ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?

在本節中,我們提出根據網絡的捕捉範圍依賴關系的變化模式重新配置設定适當的計算子產品,以實作更好的計算性能。我們提出了兩種混合堆疊政策用于倒數第二個階段,(i) 依次堆疊一個SAM塊和一個MSA塊。(ii) 在stage的前半部分使用SAM塊,在後半部分使用MSA塊。為了評估這兩種混合堆疊政策的有效性,我們在ImageNet-1K上評估了它們的top-1準确率。可以看到,(i)混合堆疊政策更加有效。

ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?

不僅如此,我們還計算了倒數第二個階段中MSA塊的相對感受野。值得注意的是,淺層layer的相對感受野開始階段有一個輕微的下降趨勢。作者認為這種下降可以歸因于SAM對早期MSA Block的影響,我們将這種現象稱為計算單元磨合适應期。而随着網絡的加深,我們可以看到感受野呈平穩上升的趨勢,這表明我們提出的進化混合網絡有效地模拟了從局部到全局依賴捕捉的過渡。

ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?

04實驗

4.1 分類實驗

ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?
ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?
ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?

上表給出了不同模型大小在ImageNet-1k上的性能對比,從中可以看到:

  • SMT在tiny、small和base規模上都以更低的參數量和計算量達到了更優的性能;
  • SMT-B在僅僅32.0M和7.7GFlops下就取得了84.3%的精度,甚至比大多數80M和15G以上的模型更好。
  • 當采用ImageNet-22k與大尺度資料預訓練之後,SMT-L精度提升到87.1%和88.1%,優于現有的CNN和Transformer模型。特别地,SMT-L用4x低的參數量和3x低的計算量就超過了InternImage-XL(88.0%)
  • 這些結果表明SMT是一個scalability能力很強的模型,在各種尺度參數下都具有優異的性能。

4.2 目标檢測實驗

ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?
ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?
ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?

上述三個表格是在多個檢測架構上的性能對比實驗,可以看到

  • 在多個檢測架構上,包括Mask R-CNN、Cascade R-CNN、RetinaNet、Sparse R-CNN、ATSS和DINO中,SMT都獲得了更優的性能。
  • 對于Mask R-CNN,在1x和3x中,SMT-B分别比Swin-B高2.1mAP和1.3mAP,同時參數量隻有Swin-B的一半。
  • 對于DINO檢測架構,SMT-S僅僅用39.9M的參數量就達到了54.0mAP,超越了現有同等規模大小的其他模型。

4.3 分割實驗

ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?

上表給出了ADE20K分割任務上的性能對比,從中可以看到當我們使用uperNet架構時,SMT在不同尺度下擁有更低的參數量和計算量,同時精度也優于其他模型。

4.4 消融實驗

ICCV23|當尺度感覺調制遇上Transformer,會碰撞出怎樣的火花?

05 總結與展望

總的來說,在視覺基礎模型backbone的探索路程中,我們有着對未來的展望:

  • 以視覺Transformer為例,除了在自監督學習等預訓練中依舊用着ViT這種plain Vision Transformer,大部分視覺基礎模型都以Swin和PvT這種Hierarchical架構為基礎設計範式。而這種範式需要解決的問題就是如何在淺層stage中設計更高效的注意力機制計算來解決自注意力的二次複雜性帶來的計算負擔。是否有更優秀的計算子產品能夠代替SAM或者是MSA是我們後續需要繼續探索的路。
  • 2023年,更多的視覺Transformer模型和CNN基礎大模型被提出,它們在各大榜單上你追我趕,可以發現CV領域中CNN依舊有着一席之地。如果Transformer不能夠在CV領域完全替代cnn神經網絡,那麼将兩者的優勢結合起來是否是更好的選擇?是以,我們希望SMT可以作為Hybrid CNN-Transformer方向新的baseline,推動該領域的進步和發展。

Reference

[1] Scale-Aware Modulation Meet Transformer[1-2周放arxiv]

[2] An image is worth 16x16 words transformers for image recognition at scale [https://arxiv.org/pdf/2010.11929.pdf]

[3] Focal Modulation Network [https://arxiv.org/abs/2203.11926]

[4] MixConv: Mixed Depthwise Convolutional Kernels [https://arxiv.org/abs/1907.09595]

[5] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [https://arxiv.org/abs/2103.14030]

[6] InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions [https://arxiv.org/abs/2211.05778]

繼續閱讀