天天看點

SPP-net中的spatial pyramid pooling

原文傳送門:https://www.jianshu.com/p/884c2828cd8e

本篇主要簡述SPP中的spatial pyramid pooling,力求簡單明了,一看就懂。

論文位址:[1406.4729] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognitio

spp提出的初衷是為了解決CNN對輸入圖檔尺寸的限制。由于全連接配接層的存在,與之相連的最後一個卷積層的輸出特征需要固定尺寸,進而要求輸入圖檔尺寸也要固定。spp-net之前的做法是将圖檔裁剪或變形(crop/warp),如下圖所示

SPP-net中的spatial pyramid pooling

圖1 cropping or warping

crop/warp的一個問題是導緻圖檔的資訊缺失或變形,影響識别精度。對此,文章中在最後一層卷積特征圖的基礎上又進一步進行處理,提出了spatial pyramid pooling,如圖2所示:

SPP-net中的spatial pyramid pooling

圖2 crop/warp vs spp

空間金字塔池化(spatial pyramid pooling)的網絡結構如下圖:

SPP-net中的spatial pyramid pooling

圖3 spp structure

簡而言之,即是将任意尺寸的feature map分别切分成16、4、1份,再對每一份進行池化操作,将池化後的結果拼接得到固定長度的特征向量(圖中的256為filter的個數),送入全連接配接層進行後續操作。

後來的Fast RCNN網絡即借鑒了spp的思想。

繼續閱讀