天天看點

弱監督目标檢測算法論文閱讀(二)Rethinking the Route Towards Weakly Supervised Object Localization

個人閱讀文章的一點了解,有其他不同了解的同學問歡迎評論交流。

這是南京大學一篇CVPR2020的文章,論文提出了一個僞監督目标定位的方法,生成僞grountruth 進行訓練。文章分析了現有的目标檢測方法的弊病,聯合優化定位與分類并不能兩者達到最優。文章創造性的提出了把分類任務和定位任務分開,單獨進行訓練,取得了很好的效果。

弱監督目标檢測算法論文閱讀(二)Rethinking the Route Towards Weakly Supervised Object Localization

Abstract

弱監督對象定位(WSOL)旨在僅使用圖像級标簽來定位對象。 先前的方法經常嘗試利用特征圖和分類權重來間接使用圖像級注釋來定位對象。 在本文中,我們證明了弱監督的對象定位應該分為兩部分:與類無關的對象定位和對象分類。 對于與類無關的對象定位,我們使用與類無關的方法生成有偏差的僞标注(noisy pseudo annotations),然後在沒有類标簽的情況下對它們執行邊界框回歸。 我們提出了僞監督對象定位(PSOL)方法作為解決WSOL的新方法。 我們的PSOL模型在不同資料集之間具有良好的可傳遞性,而無需進行微調。 使用生成的僞邊界框,我們在ImageNet上實作了58.00%的定位精度,在CUB-200上達到了74.97%的定位精度,這比以前的模型有很大進步。

Introduction

首先了解什麼是DDT (deep descriptor transformation):

連結: https://www.cnblogs.com/walter-xh/p/11011571.html

簡單的來說DDT就是從很多張包含同一類的圖檔中,定位到每張圖檔中這個物體。是一種無監督定位的方法。

在本文中,通過消融研究和實驗,我們證明了WSOL的定位部分應與類别無關,與分類标簽無聯系。 基于這些觀察,我們提倡一種模式轉換,它将WSOL分為兩個獨立的子任務:與類無關的對象定位和對象分類。 我們的方法的總體流程如圖1所示。我們将此新穎的流程命名為“僞監督對象定位”(PSOL)。 我們首先根據類不可知方法深度描述符變換(DDT)生成僞groundtruth邊界框。 通過對這些生成的邊界框執行邊界框回歸,我們的方法消除了對大多數WSOL模型的限制,包括僅允許一個完全連接配接的層作為分類權重的限制以及分類和定位之間的困境。

弱監督目标檢測算法論文閱讀(二)Rethinking the Route Towards Weakly Supervised Object Localization

我們結合了這兩個獨立子任務的結果,在ImageNet-1k和CUB-200上實作了最高的性能,與以前的WSOL模型(尤其是在CUB-200上)相比,取得了很大的優勢。 根據最新的EfficientNet模型的分類結果,我們在ImageNet-1k上實作了58.00%的Top-1定位精度,這大大優于以前的方法。

主要貢獻有以下幾點:

1、弱監督的對象定位應該分為兩個獨立的子任務:與類無關的對象定位和對象分類。 我們提出PSOL來解決以前WSOL方法中的缺點和問題。

2、盡管生成的邊界框有誤差,但我們在不使用類标簽的情況下直接對其進行優化。 通過提出的PSOL,我們在ImageNet-1k上實作了58.00%的Top-1定位精度,在CUB-200上實作了74.97%的Top-1定位精度,這遠遠超出了SOTA。

3、我們的PSOL方法在不同資料集之間具有良好的定位轉移能力,而無需進行任何微調,這比以前的WSOL模型要好得多。

Related Works

Fully Supervised Methods

在AlexNet 成功之後,研究人員試圖采用CNN進行對象定位和檢測。 開拓性的工作OverFeat 嘗試使用滑動視窗和多尺度技術在單個網絡中進行分類,定位和檢測。 VGGNet 添加了內建了基于類的回歸,以增強定位的預測結果。

目标檢測是另一個可以同時生成邊界框和标簽的任務。 R-CNN和Fast-RCNN 使用選擇性搜尋生成候選區域,然後使用CNN對其進行分類。 Faster-RCNN 提出了一個兩階段的網絡:用于産生感興趣區域(ROI)的區域提議網絡(RPN),然後是R-CNN子產品對它們進行分類并在該區域中定位對象。 這些流行的兩級檢測器廣泛用于檢測任務。 YOLO 和SSD是具有精心設計的網絡結構和錨點的one-stage檢測器。 最近,有人提出了一些無錨點 (anchor-free)檢測器來減輕諸如CornerNet 和CenterNet 等常見檢測器中的錨點問題。

但是,所有這些方法都需要大量,詳細和準确的注釋。 實際任務中的注釋非常昂貴,有時甚至難以擷取。 是以,我們需要其他一些方法來執行對象定位任務,而不需要許多确切的标簽。

Weakly Supervised Methods

弱監督對象定位(WSOL)學習僅使用圖像級标簽來定位對象。 它更具吸引力,因為與對象級标簽相比,圖像級标簽更容易獲得且更便宜。 當訓練圖像僅具有圖像級标簽時,弱監督檢測(WSOD)會嘗試同時給出對象的位置和類别。

WSOL假設整個圖像中隻有一個特定類别的對象。基于此假設,提出了許多方法來提高WSOL的​​限制。 【30】首先用全局平均池化層和最終的全連接配接層(分類器的權重)生成類激活圖。 Grad-CAM使用梯度而不是輸出特征來生成更準确的類類激活圖。除了這些專注于改進類激活圖的方法外,其他一些方法還試圖使分類模型更适合于定位任務。 HaS [19]試圖随機擦除輸入圖像中的某些區域,以強制網絡對WSOL保持細緻。 ACoL [28]使用兩個并行分類器進行動态擦除和對抗學習,以更有效地發現互補的目标區域。 SPG [29]生成自産掩碼以定位整個對象。

WSOD沒有一個類隻有一個物體的限制。 但是,WSOD通常需要一些方法來生成區域proposal,例如選擇性搜尋(SS)[24]和邊框(EB)[32],這将花費大量的計算資源和時間。 此外,目前的WSOD檢測器使用高分辨率輸入來輸出邊界框,進而導緻沉重的計算負擔。 是以,大多數WSOD方法

難以應用于大規模資料集。

Methodology

A paradigm shift from WSOL to PSOL

目前的WSOL網絡可以生成具有給定類标簽的邊界框。 但是,已發現此方法的嚴重缺陷。

1、學習目标是間接的,這會損害模型在定位任務上的性能。 HaS [19]和ADL [2]表明,當隻有一個CNN模型時,定位與分類不相容。 定位嘗試對整個對象進行定位,而分類嘗試對對象進行分類。 分類模型通常嘗試僅定位圖像中對象的最有差別的部分。

2、CAM [30]具有門檻值參數,需要存儲三維特征圖以進行進一步計算。 該門檻值是棘手的并且難以确定。

受選擇性搜尋和Faster-RCNN中産生感興趣區域(ROI)的類無關過程的鼓勵,我們将WSOL分為兩個子任務:類無關對象的定位和對象分類。 基于這兩個子任務,我們提出了PSOL方法。 PSOL在顯式生成的僞ground-truth邊界框上直接優化定位模型。 是以,它消除了以前WSOL方法中說明的限制和缺點,并且是WSOL的模式轉變。

The PSOL Method

Bounding Box Generation

弱監督目标檢測算法論文閱讀(二)Rethinking the Route Towards Weakly Supervised Object Localization

WSOL和我們的PSOL之間的關鍵差別是生成用于訓練圖像的僞邊界框。 檢測是完成此任務的自然選擇,因為檢測模型可以直接提供邊界框和類。 但是,檢測中最大的資料集隻有80個類别[10],它無法為具有許多類别的資料集(例如ImageNet-1k)提供通用的對象定位。 此外,像Faster-RCNN [14]這樣的檢測器需要大量的計算資源和較大的輸入圖像大小(例如,測試時短邊= 600)。 這些問題使檢測模型無法應用于大規模資料集上的邊界框。

如果沒有檢測模型,我們可以嘗試一些定位方法來輸出邊界框,以直接訓練圖像。 一些弱聯合監督的方法可能會産生有偏差的邊界框,我們将對其進行簡要介紹。

WSOL methods

現有的WSOL方法通常遵循此 pipeline來生成圖像的邊界框。 首先将圖像 I輸入網絡 F,然後生成最終特征圖(通常是最後卷積層的輸出)G:

弱監督目标檢測算法論文閱讀(二)Rethinking the Route Towards Weakly Supervised Object Localization

其中 h,w,d 是最終特征圖的高度,寬度和深度。 然後,在全局平均池和最終的完連接配接層之後,将生成标簽 Lpred 。根據預測标簽 Lpred 或 地面真實标簽 Lgt ,我們可以在最終的全連接配接層中獲得類特定的權重

弱監督目标檢測算法論文閱讀(二)Rethinking the Route Towards Weakly Supervised Object Localization

然後,按通道權重對 G 的每個空間位置進行權重和求和,以獲得特定類别的最終熱圖 H:

弱監督目标檢測算法論文閱讀(二)Rethinking the Route Towards Weakly Supervised Object Localization

最後,将 H 上采樣到原始輸入大小,并應用門檻值生成最終邊界框。

DDT recap

一些協同監督的方法在定位任務上也可以表現良好。 在這些協同監督方法中,DDT具有良好的性能,并且對計算資源的需求很少。 是以,我們以DDT [26]為例。

給定具有n張圖像的一組圖像包S,其中每個圖像 I∈S 具有相同的标簽,或在圖像中包含相同的對象。使用預先訓練的模型 F ,還會生成最終特征圖:

弱監督目标檢測算法論文閱讀(二)Rethinking the Route Towards Weakly Supervised Object Localization

然後将這些特征圖收集到一個大型特征圖集中:

弱監督目标檢測算法論文閱讀(二)Rethinking the Route Towards Weakly Supervised Object Localization

沿深度方向應用主成分分析(PCA)[12]。 經過PCA處理,我們可以得到特征值最大的特征向量 P 。 然後,對 G 的每個空間位置進行逐通道權重并求和,以獲得最終的熱圖H:

弱監督目标檢測算法論文閱讀(二)Rethinking the Route Towards Weakly Supervised Object Localization

然後将H上采樣至原始輸入大小。 零門檻值和最大連接配接的分量分析将應用于生成最終邊界框。

我們将使用WSOL方法和DDT方法生成僞邊界框,并評估其适用性

Localization Methods

生成邊界框後,每個訓練圖像都有(僞)邊界框注釋。 然後自然要用這些生成框執行對象定位。 如前所示,檢測模型太繁重,無法處理此任務。 是以,執行bounding box回歸是很自然的。 以前的全受監督的工作提出了兩種邊界框回歸方法:單類回歸(SCR)和 每類回歸(PCR)。 PCR與類别标簽密切相關。 由于我們主張定位是與類無關的,而不是與類有關的任務,是以我們為所有實驗選擇SCR。

我們按照先前的工作進行bounding box回歸。 假設邊界框采用x,y,w,h格式,其中x,y是邊界框的左上角坐标,而w,h分别是邊界框的寬度和高度。我們首先将x,y,w,h 轉換為 x*,y*,w* ,h* 。

弱監督目标檢測算法論文閱讀(二)Rethinking the Route Towards Weakly Supervised Object Localization

h* = h / hi

wi和hi分别是輸入圖像的寬度和高度。

我們使用具有兩個全連接配接的層和相應的ReLU層的子網進行回歸。 最後,輸出輸入到sigmoid激活函數。 對于回歸任務,我們使用均方誤差損失(l2損失”)。

組合算法1中的步驟2和步驟3,即 Fcls 和 Floc 可以內建到一個模型中,該模型與分類标簽和生成的邊界框一起進行訓練。 但是,我們将憑經驗表明定位和分類模型應該分開。

Experiments

弱監督目标檢測算法論文閱讀(二)Rethinking the Route Towards Weakly Supervised Object Localization
弱監督目标檢測算法論文閱讀(二)Rethinking the Route Towards Weakly Supervised Object Localization
弱監督目标檢測算法論文閱讀(二)Rethinking the Route Towards Weakly Supervised Object Localization

繼續閱讀