天天看點

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)論文解讀

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

一、Overview

 本文設計了一個多光譜行人檢測模型,與融合RGB資訊和T資訊的思路不同的是,本文沒有選擇在一個模型中融合兩種模态的資訊,而是先在訓練過程中通過一個無監督學習的方法從對應的RGB圖像中重建T圖像。該模型主要包括兩個階段:首先利用一個CNN學習模态間的非線性映射關系,對RGB資料和T資料間的關系進行模組化;之後将學習到的特征表示轉移到第二個深度神經網絡中,第二個深度神經網絡隻接收RGB圖像以及RGB圖像上的候選框作為輸入,最後輸出檢測結果。實驗結果表明,本文提出的模型在KAIST資料集(RGB-T行人檢測資料集)上得到了當時最好的效果,同時在Caltech資料集(RGB行人檢測資料集)上也得到了很好的效果。

二、Motivations

 在行人檢測任務中,如圖1所示,隻使用RGB資料或T資料中的一種進行檢測時很難分辨Hard positive samples(很難被識别的正樣本,即是行人但是由于模糊等情況容易被誤判為背景的情況)和Hard negative samples(很難被識别的負樣本,即是背景但是由于模糊等情況容易被誤判為行人的情況)。通過将RGB資料與T資料相結合,就可以更容易地分辨出行人和背景,有效地解決上述問題。

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)論文解讀

圖1 單模态行人檢測存在的問題

三、Contributions

1.提出了一種學習和轉移跨模态特征表示的行人檢測新方法。該方法的優點主要有:在測試階段不需要使用多光譜資料,隻需要使用RGB資料,這在部署機器人和監視系統時是至關重要的,因為隻需要傳統的可見光錄影機即可,進而大大降低了成本;整個模型在訓練時不需要使用T資料的标注資訊,這大大減少了人為标記繁重的工作。

2.據我們所知,這是第一項專門針對卷積神經網絡在不利的光照條件下進行行人檢測問題研究的工作。

3.實驗結果表明,本文提出的模型在KAIST資料集和Caltech資料集中都取得了非常好的效果。

四、Models

1.RRN結構(Region Reconstruction Network)

 RRN結構是本文提出的模型的第一階段,該結構隻用于訓練階段,通過一個CNN學習模态間的非線性映射關系,對RGB資料和T資料間的關系進行模組化,模型結構如圖2所示。

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)論文解讀

圖2 RRN結構  RRN由前端網絡和後端網絡組成,其輸入是RGB圖像以及一些行人候選框(使用ACF得到這些候選框)。其中前端網絡使用在ImageNet上預訓練的VGG-16模型,去除了最後一個Maxpooling層和所有的全連接配接層。後端網絡使用Fast R-CNN中提出的ROI Pooling,通過前端網絡得到的feature map和輸入的候選框資訊将每個候選框處理為統一尺寸7×7×512,由于KAIST資料集中行人所占像素一般為50×50,是以這裡将每個7×7×512的候選框特征通過一個反卷積層上采樣為50×50×64,這樣有利于框出完整的行人,最後加入一個ReLU層。  在訓練過程中,使用相對應的T圖像位置資訊作為監督,計算L2 loss,使得RRN網絡可以學習重構RGB資料和T資料間的關系。這就是文中所說的無監督學習過程,其實也是有監督的,使用的監督資訊是T圖像的對應位置也就是RGB圖像和T圖像對之間的對應關系,隻不過該過程中沒有用到任何的标注資訊,是以可以算是一種很弱的有監督學習方法。 2.MSDN結構(Multi-Scale Detection Network)  MSDN結構如圖3所示,分為Sub-Net A和Sub-Net B兩部分,且輸入為RGB圖像以及一些行人候選框(通過ACF提取),整個過程不需要T圖像參與。其中Sub-Net A利用在ImageNet上預訓練好的VGG-16,同樣是去除了最後一個Maxpooling層和所有的全連接配接層,将Conv4-3和Conv5-3得到的feature map和行人候選框資訊分别輸入到兩個ROI Pooling層中并将得到的結果級聯。而Sub-Net B與Sub-Net A結構完全相同,隻不過初始化的參數使用的不再是ImageNet預訓練得到的,而是使用RRN訓練得到的前向網絡部分的參數。最後将Sub-Net A和Sub-Net B的結果級聯,得到次元為7×7×1024的向量,經過兩個全連接配接層後進行分類與目标框的回歸,對于檢測結果仍使用非極大值抑制(NMS)删除效果不好的框。

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)論文解讀

圖3 MSDN結構

五、Experiments

 在實驗過程中,RRN部分用KAIST資料集訓練,MSDN的性能在Caltech測試集和KAIST的RGB測試集上進行了評估。

實驗過程中,訓練RRN和MSDN都使用ACF提取行人候選框,測試階段MSDN也使用ACF提取行人候選框

1.KAIST資料集中不同變體對比實驗

表1 KAIST資料集上不同變體檢測丢失率對比

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)論文解讀

 實驗結果如表1所示,其中CMT-CNN-SA表示MSDN結構中隻使用Sub-Net A;CMT-CNN-SA-SB(Random)表示Sub-Net B參數初始化方法為随機;CMT-CNN-SA-SB(ImageNet)表示Sub-Net B參數初始化方法為使用ImageNet預訓練得到的參數;CMT-CNN為本文提出的方法,即使用RRN得到的參數初始化Sub-Net B。可以看到本文的政策比其他三種方法的錯誤率都要低,因為使用RRN得到的參數有效地重構了RGB資訊與T資訊之間的關系。

2.KAIST資料集中與現有方法對比

表2 Caltech資料集上不同變體檢測錯誤率對比

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)論文解讀

 其中CMT-CNN-SA-SB(RGB-KAIST)表示Sub-Net B初始參數使用在ImageNet預訓練并在KAIST的RGB部分進一步訓練的結果。實驗結果表明使用KAIST資料集中的RGB部分再訓練也可以提升一定性能,但是都不如本文的模型,因為其他方法都沒有利用T資訊。

4.Caltech資料集中與現有方法對比

 實驗結果曲線如圖5所示,在RGB行人檢測資料集Caltech中本文提出的模型也取得了很好的效果。

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)論文解讀

圖5 Caltech資料集中與現有方法FPPI-Miss Rate曲線對比

5.與現有方法的推理速度對比

表3 推理速度對比

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)論文解讀

 本文的模型不僅取得了更低的錯誤率,在測試時的推理速度也很快,處理一幀圖檔隻需要0.59秒。

繼續閱讀