SPP-net中的spatial pyramid pooling

2023-04-16 23:13:18

原文傳送門：https://www.jianshu.com/p/884c2828cd8e

本篇主要簡述SPP中的spatial pyramid pooling，力求簡單明了，一看就懂。

論文位址：[1406.4729] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognitio

spp提出的初衷是為了解決CNN對輸入圖檔尺寸的限制。由于全連接配接層的存在，與之相連的最後一個卷積層的輸出特征需要固定尺寸，進而要求輸入圖檔尺寸也要固定。spp-net之前的做法是将圖檔裁剪或變形（crop/warp），如下圖所示

SPP-net中的spatial pyramid pooling

圖1 cropping or warping

crop/warp的一個問題是導緻圖檔的資訊缺失或變形，影響識别精度。對此，文章中在最後一層卷積特征圖的基礎上又進一步進行處理，提出了spatial pyramid pooling，如圖2所示：

SPP-net中的spatial pyramid pooling

圖2 crop/warp vs spp

空間金字塔池化（spatial pyramid pooling）的網絡結構如下圖：

SPP-net中的spatial pyramid pooling

圖3 spp structure

簡而言之，即是将任意尺寸的feature map分别切分成16、4、1份，再對每一份進行池化操作，将池化後的結果拼接得到固定長度的特征向量（圖中的256為filter的個數），送入全連接配接層進行後續操作。

後來的Fast RCNN網絡即借鑒了spp的思想。

繼續閱讀