天天看點

[深度學習]Object detection物體檢測之DSSD(10)主要改進提出的動機Deconvolutional SSDPrediction moduleDeconvolution Module使用K-means 方法 setting prior box aspect ratioResult

目錄

主要改進

提出的動機

Deconvolutional SSD

Prediction module

Deconvolution Module

使用K-means 方法 setting prior box aspect ratio

Result

論文全稱:《DSSD : Deconvolutional Single Shot Detector》

論文位址:https://arxiv.org/pdf/1701.06659.pdf

主要改進

[深度學習]Object detection物體檢測之DSSD(10)主要改進提出的動機Deconvolutional SSDPrediction moduleDeconvolution Module使用K-means 方法 setting prior box aspect ratioResult

DSSD相比于SSD主要有兩方面的改進:

  • 1.使用了Residual-101代替了VGG,減少參數的同時加深模型的深度,可以提高檢測的正确率。
  • 2.在SSD特征層的末尾添加deconvolution layers,內建上下文的資訊,提升低層的語義資訊,提高對小物體的檢測正确率。
  • 3.使用K-means 方法 setting prior box aspect ratio

提出的動機

大多數的目标檢測方法,包括SPPnet,Fast R-CNN,Faster R-CNN , RFCN和YOLO,使用ConvNet的最頂層來學習在不同尺度下檢測對象。雖然功能強大,但它利用單個層模組化為所有可能的對象比例和形狀帶來了很大的負擔。

有很多方法提出了利用ConvNet網絡中的多層來提高檢測效果,這要有兩種方法。

  1. 第一組方法結合了ConvNet中不同層的feature map,并使用組合feature map進行預測。例如ION,HyperNet。然而,組合特征映射不僅顯著增加了模型的記憶體占用,而且降低了模型的速度。
  2. 另一組方法使用ConvNet中的不同層用于預測不同尺度的物體。例如SSD,MS-CNN。然而,為了更好地檢測小對象,這些方法需要利用小接受域和密集特征映射的淺層資訊,這可能會導緻小對象性能低下,因為淺層對對象的語義資訊較少。

通過使用deconvolution layers和skip connections,可以在密集(deconvolution)特征映射中注入更多的語義資訊,進而幫助預測小對象。該方法不僅解決了卷積神經網絡中特征圖分辨率下降的問題,而且為預測提供了上下文資訊。

Deconvolutional SSD

從下圖可以看出,Deconvolutional SSD是一個非對稱的網絡結構,之是以沒有使用很深的對稱結構的原因有兩個:

  1. 首先,檢測是視覺中的基本任務,是以,速度是一個重要的因素。建構對稱網絡意味着推理時間将增加一倍。這不是我們在這個快速檢測架構中想要的。
  2. 其次,目前還沒有針對ILSVRC CLS-LOC dataset的分類任務訓練的decoder預訓練模型,因為分類提供的是單個完整的圖像标簽,而不是檢測中的局部标簽。由于我們的decoder解碼器沒有預先訓練好的模型,不能利用解碼層的transfer learning轉移學習,是以解碼層必須從随機初始化開始訓練。deconvolution layers的一個重要方面是計算成本,特别是在除deconvolution layers過程之外還從前一層添加資訊時。
[深度學習]Object detection物體檢測之DSSD(10)主要改進提出的動機Deconvolutional SSDPrediction moduleDeconvolution Module使用K-means 方法 setting prior box aspect ratioResult

Prediction module

MS-CNN指出,改進每個任務的子網絡可以提高準确率。按照這個原則,作者為每個預測層添加一殘差塊。這一部分跟SSD合在一起預測非常不同。對于不同的分辨率的檢測差別開來。

[深度學習]Object detection物體檢測之DSSD(10)主要改進提出的動機Deconvolutional SSDPrediction moduleDeconvolution Module使用K-means 方法 setting prior box aspect ratioResult

Deconvolution Module

Deconvolution Module的靈感來自Pinheiro等人,他們提出,用于細化網絡的Deconvolution Module的分解版本與更複雜的Deconvolution Module具有相同的準确度,而且分解版本的網絡将更加高效。

作者對Pinheiro等提出的方法進行以下修改:

  1. 首先,在每個卷積層之後添加一個batch normalization layer批規格化層。
  2. 其次,使用經過訓練的 deconvolution layer而不是bilinear upsampling雙線性上采樣。
  3. 最後,測試了不同的組合方法:element-wise sum元素相加和element-wise product元素乘積。實驗結果表明,element-wise product元素乘積的精度最高。
[深度學習]Object detection物體檢測之DSSD(10)主要改進提出的動機Deconvolutional SSDPrediction moduleDeconvolution Module使用K-means 方法 setting prior box aspect ratioResult

使用K-means 方法 setting prior box aspect ratio

在原始的SSD模型中,長寬比為2和3的boxes從實驗中被證明是有用的。為了了解訓練資料(PASCAL VOC 2007和2012 trainval)中boxes的長寬比,以方框面積平方根為特征,對訓練盒進行K-means聚類。因為SSD架構将輸入的大小調整為正方形,并且大多數訓練圖像更寬,是以大多數邊界框更高也就不足為奇了。根據這張表,我們可以看到大多數的方框比率都在1-3之間。是以,作者決定在每個預測層增加一個縱橫比1.6,和使用(1.6,2.0,3.0)。

[深度學習]Object detection物體檢測之DSSD(10)主要改進提出的動機Deconvolutional SSDPrediction moduleDeconvolution Module使用K-means 方法 setting prior box aspect ratioResult

Result

下面這張圖可以看車prediction module ,deconvolutional module 對結果的改進。

[深度學習]Object detection物體檢測之DSSD(10)主要改進提出的動機Deconvolutional SSDPrediction moduleDeconvolution Module使用K-means 方法 setting prior box aspect ratioResult

論文還提供了PASCAL VOC and COCO不同資料集的結果,這裡不再細說。

繼續閱讀