目标檢測--SPP-Net

2023-06-24 07:43:11

目标檢測--SPP-Net

在用selective search方法對原圖進行提取了2000個Proposal，在卷積之前要對每個Proposal進行Wrap或Crop，降低了檢測的精确度。
對于每一個原圖的Proposal都要進行一次卷積，也就是每張圖2000次，計算量太大。

目标檢測--SPP-Net

特征圖上的對應的特征區域的次元不滿足全連接配接層的輸入要求？

目标檢測--SPP-Net
作者使用Spatial Pyramid Pooling解決了該問題，也就是在卷積層和全連接配接層之間增加一個Spatial Pyramid Pooling Layer。如上圖所示，假設原圖輸入是224x224，對于conv5出來後的輸出是13x13x256的，可以了解成有256個這樣的Filter，每個Filter對應一張13x13的feature Map。如果像上圖那樣将feature Map分成1x1（金字塔底座），2x2（金字塔中間），4x4（金字塔頂座）三張子圖，分别做Max Pooling後，出來的特征就是（16+4+1）x256 次元。即使原圖的輸入不是224x224，出來的特征依然是（16+4+1）x256次元。這樣就實作了不管圖像尺寸如何池化n的輸出永遠是（16+4+1）x256 次元。
如何從一個region proposal 映射到feature map的位置？

要搞定這個問題，需要首先清楚感受野等概念和計算方法。下面從感受野、感受野上面的坐标映射及原始圖像的ROI如何映射三方面闡述。
感受野
- 概念
  
  在卷積神經網絡中，感受野的定義是卷積神經網絡每一層輸出的特征圖（Feature Map）上的像素點在原始圖像上映射的區域大小。
- 計算方法

output field size = ( input field size - kernel size + 2*padding ) / stride + 1

其中output field size 是卷積層的輸出，input field size 是卷積層的輸入，也是上一層的感受野，是以，

input field size = （output field size - 1）* stride - 2*padding + kernel size

SPP也需要訓練CNN提取特征，然後訓練SVM分類這些特征。需要巨大的存儲空間，并且分開訓練也很複雜。

繼續閱讀