天天看點

Light-Head R-CNN : 曠世提出用于加速two-stage detector的通用結構,速度達102fpsIntroductionOur ApproachExperimentsCONCLUSION

論文提出Light-Head R-CNN,一個精簡的two-stage目标檢測器設計準則,在表達能力很強的精簡特征圖上使用輕量級的R-CNN子網,不僅大量減少推理耗時,還提高了準确率,結合Xception-like的主幹網絡能夠達到30.7mAP和102FPS

來源:【曉飛的算法工程筆記】 公衆号

論文: Light-Head R-CNN: In Defense of Two-Stage Object Detector

  • 論文位址:https://arxiv.org/abs/1711.07264v2

Introduction

  目前的two-stage目标檢測算法都有相似的特性,一個複雜的head連接配接着主幹網絡,而Faster R-CNN的全連接配接層和R-FCN的score map都是相當耗時的。是以,論文提出基于light-head的思路來設計快速且準确的two-stage detector,核心思想是通過large-kernel separable convolkution來産生特征表達能力很強的精簡特征圖,特征圖的大小為$alpha imes p imes p$,$alphale 10$,同時精簡RoI-wise的子網,進而大幅減少模型計算量

  由于light-head的結構,Light-Head R-CNN能夠輕松的達到準确率和速度的最佳平衡,在大小型主幹網絡上都有很好的準确率和速度表現

Our Approach

Light-Head R-CNN

  Head主要指接在主幹網絡後面的結構,優化主要包含兩個部分,分别針對R-CNN子網和RoI warping

  • R-CNN subnet

  Faster R-CNN使用兩個大型卷積進行子網的RoI-wise的特征提取,雖然有利于分類,但由于前面的特征次元很大,導緻計算量巨大。為了加速子網,R-FCN則先産生region-based的的score maps,channels為$#classes imes p imes p$,然後直接進行pool和average vote得到結果,雖然子網速度很快,但score map的産生相對耗時和耗記憶體,而且缺乏RoI-wise的特征提取,準确率可能不夠

  基于上述問題,Light-Head R-CNN使用簡單且廉價的全卷積層作為R-CNN子網,能很好的達到性能和準确率的平衡,如圖2c所示。全連接配接層的耗時也RoI輸出特征圖數量有關,是以還要進行相關優化

  • Thin feature maps for RoI warping

  RoI warping的作用是使輸入R-CNN子網的特征圖大小固定,這裡采用較小channel的精簡特征圖(thin feature maps)作為RoI warping前的輸入。通過實驗,在精簡特征圖上進行RoI warping不僅能提高準确率,還能節省記憶體和計算時間。如果使用PSRoI pooling,配合精簡特征圖能夠增加額外的計算來加強R-CNN以及減少channel數。如果使用RoI pooling,配合精簡特征圖能夠減少R-CNN的開銷并丢棄Global Average Pooling來提升準确率

Light-Head R-CNN for Object Detection

  基于以上的讨論,Light-Head R-CNN在通用物體檢測上的實作如圖2C所示,後面的讨論會有兩種設定,設定L為大主幹網絡,設定S為小主幹網絡

  • Basic feature extractor

  對于設定L,使用ResNet-101作為基礎模型,對于設定S,則使用類似Xception的小網絡。圖2的"Conv layers"代表基礎網絡,conv4和conv5的卷積block标記為$C_4$和$C_5$

  • Thin feature maps

  論文在$C_5$上使用類似Inception和GCN的大型分解卷積,對于設定L和設定S,$C_{mid}$分别為256和64,而$k$和$C_{out}$則統一為15和$10 imes p imes p$,這樣的特征提取能極大地提高感受域,進而提取更強大的特征圖

  • R-CNN subnet

  子網隻采用2048維的全連接配接層,後面再同時接兩個全連接配接層來預測RoI的類别和位置回歸,位置的回歸隻采用4維,而非$#classes imes 4$維。由于精簡特征圖的強大表達能力,這樣簡單的子網也能達到很高的準确率

  • RPN(Region Proposal Network)

  RPN是用于$C_4$上的滑動類不可知的目标檢測器,anchor的尺寸和長寬比分别維${1:2,1:1,2:1}$和${322,642,1282,2562,512^2}$,使用IoU=0.7的NMS來去除重疊的bbox

Experiments

  論文實驗比較多,這裡隻列舉了部分比較重要的實驗

Ablation Experiments

  • Thin feature maps for RoI warping

  為了驗證精簡特征圖的作用,設計了圖4的類似R-FCN的網絡,通過1x1卷積将特征圖channel數從3969降低到490,然後子網改為全連接配接進行分類和定位回歸

  B1為原R-FCN,B2為增大輸入和anchor數的R-FCN。盡管大幅降低了channel數,網絡的性能隻有小幅度的降低

  基于R-FCN,在使用大型分離卷積來增強特征圖後,性能得到了提升,說明是相當有用的

  • R-CNN subnet

  表格裡的Faster R-CNN為同樣加大輸入和anchor數的版本,可以看到,使用light-head能夠進一步提升準确率

Light-Head R-CNN: High Accuracy

Light-Head R-CNN: High Speed

CONCLUSION

  論文在研究了目前的two-stage網絡存在的速度問題後,針對性地提出Light Head R-CNN,一個精簡的two-stage目标檢測器設計準則,在表達能力很強的精簡特征圖上使用輕量級的R-CNN子網,不僅大量減少推理耗時,還提高了準确率,結合Xception-like的主幹網絡能夠達到30.7mAP和102FPS

參考内容

  • Large Kernel Matters -- Improve Semantic Segmentation by Global Convolutional Network

寫作不易,未經允許不得轉載~

更多内容請關注 微信公衆号【曉飛的算法工程筆記】