原文傳送門:https://www.jianshu.com/p/884c2828cd8e
本篇主要簡述SPP中的spatial pyramid pooling,力求簡單明了,一看就懂。
論文位址:[1406.4729] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognitio
spp提出的初衷是為了解決CNN對輸入圖檔尺寸的限制。由于全連接配接層的存在,與之相連的最後一個卷積層的輸出特征需要固定尺寸,進而要求輸入圖檔尺寸也要固定。spp-net之前的做法是将圖檔裁剪或變形(crop/warp),如下圖所示
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIwQjMx8CX39CXy8CXycXZpZVZnFWbpN0NlAXayR3cvwFduVWay9WLvRXdh9CXyI3Zv1UZnFWbp9zZuBnLyMGOzQ2N1MTOhVWYxU2Mw0CNzcTO4MTOvw1cldWYtl2XkF2bsBXdvw1bp5SdoNnbhlmauMXZnFWbp1CZh9GbwV3Lc9CX6MHc0RHaiojIsJye.png)
圖1 cropping or warping
crop/warp的一個問題是導緻圖檔的資訊缺失或變形,影響識别精度。對此,文章中在最後一層卷積特征圖的基礎上又進一步進行處理,提出了spatial pyramid pooling,如圖2所示:
圖2 crop/warp vs spp
空間金字塔池化(spatial pyramid pooling)的網絡結構如下圖:
圖3 spp structure
簡而言之,即是将任意尺寸的feature map分别切分成16、4、1份,再對每一份進行池化操作,将池化後的結果拼接得到固定長度的特征向量(圖中的256為filter的個數),送入全連接配接層進行後續操作。
後來的Fast RCNN網絡即借鑒了spp的思想。