天天看點

性能達到SOTA的CSP對象檢測網絡

關注可學習更多的OpenCV教程。

問題或建議,請留言;

如果你覺得文章對你有幫助,歡迎轉發支援

前言與概述

早期傳統的對象檢測方法都是基于滑動視窗的特征分類,自從深度學習來了之後就産生很多基于深度神經網絡效果特别好的對象檢測網絡模型,比如SSD、YOLO、Faster-RCNN等,但是這些模型都有個缺陷就是依賴anchor設定,總的來說anchor設定對模型最終精度有比較明顯的影響。本文中作者通過深度神經網絡提取進階抽象語義描述把對象檢測中圖像上各個對象抽象為BLOB對象檢測的中心特征點,同時通過卷積神經網絡預測每個中心特征點尺度範圍,這樣就實作了anchor-free的對象檢測網絡建構,在幾個benchmark對象檢測資料集上都取得跟anchor-base網絡相同甚至更好的效果。而且針對交叉資料集驗證表明該方法有傑出的泛化能力。

特征檢測是計算機視覺基本任務之一,應用範圍很廣,包括了圖像表示、對象檢測、圖像比對、三維場景重建等,典型的圖像特征包括邊緣、角點檢測、BLOB檢測。特征檢測。簡單說特征可以被定義為圖像中感興趣區域(ROI)的描述,是對圖像資訊的抽象描述與表示,卷積神經網絡有能力很好的提取與表示圖像從低級到進階的特征,作者通過卷積神經網絡CNN實作了高階圖像特征提取檢測中心特征點與尺度預測,實作了CSP對象檢測(Center and Scale Prediction base Detection)。模型工作流程:

性能達到SOTA的CSP對象檢測網絡

作者受到CornerNet與TLL等anchor-free對象檢測網絡模型使用FCN(全卷積網絡)啟發,在關鍵點檢測的基礎上進一步拓展,基于FCN網絡實作了中心與尺度預測的對象檢測。作者總結CSP檢測網絡有如下幾點貢獻

1.通過卷積神經網絡實作了中心與尺度預測,簡單的網絡訓練就可以實作對象檢測,擺脫了anchor的限制與基于Key-Point類anchor-free網絡post-stage的複雜處理。

2.CSP檢測網絡在行人檢測(CityPersons)與人臉檢測(WiderFace)兩個benchmark資料集上達到了SOTA

3.CSP檢測網絡在交叉資料集上表現出了良好的泛化能力。

網絡架構詳解

基于anchor-box的對象檢測網絡一個關鍵組成是預先定義的各種比例與尺度的anchor-boxes,檢測通過對這些anchor-boxes分類或者回歸達成。Faster-RCNN是已知的兩階段對象檢測網絡,通過RPN實作區域推薦,然後進一步分類與精煉回歸在一個架構架構下實作對象檢測,而SSD通過預定義anchor比率與尺度,沒有proposal階段,實作一階段預測。

Anchor-free的網絡則完全放棄了anchor-box的proposal與預定義配置,DenseBox通過對每個對象定義中心區域,要求四個參數來描述它,相比之下CSP網絡每個對象隻要求一個中心點,兩個參數來描述對象的Scale,就可以計算得到最終的Box,CornerNet通過預測對象坐上角與右下角,然後通過組相關性,使用一個新角池化層進行提升,達到了非常好的效果。CSP網絡隻需要一個全卷積網絡(FCN)就實作了中心點與尺度預測,最終隻需要一個NMS作為後續處理。CSP網絡模型如下:

性能達到SOTA的CSP對象檢測網絡

其中backbone網絡可以基于ResNet-50與MobileNet實作,以ResNet-50網絡為例,卷積層被分為五個階段,輸出的特征feature maps下采樣倍數分别為2、4、8、16、32,在stage-5中采用空洞卷積,保持輸出分辨率與輸入分辨率不變,對stage-2~stage-5的feature maps進行合并輸出,在合并之前,針對不尺度的feature maps進行反卷積處理,得到相同的尺度,假設最初輸入圖像大小為HxW,最終合并之後feature maps的大小為H/r x W/r其中r是下采樣因子,作者實驗發現r=4的時候效果最好。作者的解釋是r太大,會導緻細節資訊大量丢失,r太小,導緻計算量上升。

對得到合并feature maps通過Detection Head部分來實作最終結果解析,首先通過3x3的卷積降維得到256個feature maps輸出,然後同兩個滑動的1x1卷積輸出預測中心位置與尺度資訊,圖示如下:

性能達到SOTA的CSP對象檢測網絡

訓練與實驗結果

Ground Truth

主要是針對box ground生成中心點标記為正,其它為負,Scale的高度與寬度标記針對每個對象log(Hk)表示第K個對象的,為了減少模糊,周圍2個機關内标記為負數,其它标記為零。相似就可以标記寬度,針對不同的比率。在訓練階段因為很難真正的确定中心點位置,作者引入高斯mask進行輔助,最終的損失有中心位置損失,尺度損失,與offset三個部分組成,表示如下:

性能達到SOTA的CSP對象檢測網絡

實驗結果

不同下采樣情況下

性能達到SOTA的CSP對象檢測網絡

不同尺度特征組合情況下

性能達到SOTA的CSP對象檢測網絡

基于行人檢測CityPersons資料集不同網絡模型對比,CSP效果達到SOTA

性能達到SOTA的CSP對象檢測網絡
論文位址
https://arxiv.org/pdf/1904.02948.pdf
源碼位址
https://github.com/liuwei16/CSP           

複制