天天看點

【計算機視覺】detection/region/object proposal 方法綜述文章

目錄(?)[-]

  1. Papers
  2. 大綱
  3. 各種OP方法的回顧
    1. Grouping proposal methods
    2. Window scoring proposal methods
    3. Aliternate proposal methods
    4. Baseline proposal methods
  4. 各種OP方法對于複現的魯棒性的讨論
  5. 各種OP方法的recall
  6. 各種OP方法在實際做detection任務時候的效果
  7. 全文的總結和讨論

  • J. Hosang, R. Benenson, P. Dollár, and B. Schiele. What makes for effective detection proposals? arXiv:1502.05082, 2015.

    arXiv

    @ARTICLE{Hosang2015arXiv,
      author = {J. Hosang and R. Benenson and P. Doll\'ar and B. Schiele},
      title = {What makes for effective detection proposals?},
      journal = {arXiv:1502.05082},
      year = {2015}
    }           
  • J. Hosang, R. Benenson, and B. Schiele. How good are detection proposals, really? BMVC 2014.

    PDF, arXiv

    @INPROCEEDINGS{Hosang2014Bmvc,
      author = {J. Hosang and R. Benenson and B. Schiele},
      title = {How good are detection proposals, really?},
      booktitle = {BMVC},
      year = {2014}
    }           

轉自:http://zhangliliang.com/2015/05/19/paper-note-object-proposal-review-pami15/

論文的項目位址:

https://www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/research/object-recognition-and-scene-understanding/how-good-are-detection-proposals-really/

根據文章的描述順序,以下内容大概會是:

  1. 回顧object proposal(以下簡稱為OP)的各種方法,将其分類。
  2. 讨論不同OP在圖檔被擾動之後的在複現上的魯棒性
  3. 讨論不同OP在PASCAL和ImageNet上的Recall,這裡作者提出了Average Recall(簡稱AR)的一種新的标準
  4. 讨論不同OP對于實際分類的性能比較(用了DPM和RCNN這兩個著名detector進行比較),以及說明了AR是一個跟性能相當相關的标準。

先上一個效果的一覽表格:

注意到這裡隻列出了可以找到源碼的方法,那麼,下面一點點開始整理。

作者大緻将OP方法分成了兩類,一類叫grouping method,一類叫window scoring method。前者是指先将圖檔打碎,然後再聚合的一種方法,比如selective search。後者是生成大量window并打分,然後過濾掉低分的一種方法,比如objectness。另外還有一些介乎兩者之間的方法,比如multibox。

作者将grouping的方法繼續細分為三個小類。SP,對superpixel進行聚合;GC,使用種子點然後groupcut進行分割;EC,從邊緣圖提取proposal。下面分别調一個進行介紹

  • SelectiveSearch (SP): 無需學習,首先将圖檔打散為superpixel,然後根據人為定義的距離進行聚合。
  • CPMC (GC): 随機初始化種子點,然後做graphcut進行分割,反複多次,然後定義了某個很長的特征進行排序。(是以速度超級慢)
  • MCG (EC): 首先用現成方法快速得到一個層次分割的結果,然後利用邊緣資訊進行聚合。

不同于前者需要通過聚合小塊來生成候選框,這裡的方法是先生成候選框,然後直接打分排序來過濾掉低分的候選框。介紹兩種比較出名的方法,

  • Bing: 訓練了一個簡單的線性分類器來通過類似滑窗的方式來過濾候選框,速度驚人地快,在CPU上能夠達到ms級别。但是被文獻[40]攻擊說分類性能不是來自于學習而是幾何學。
  • EdgeBoxes: 跟selective search一樣是一個不需要學習的方法,結合滑窗,通過計算視窗内邊緣個數進行打分,最後排序。

  • multibox,目前筆者所知唯一基于CNN提取proposal的方法,通過CNN回歸N個候選框的位置并進行打分,目前在ImageNet的dectection track上應該是第一的。

這裡用了Uniform,Gaussian,Sliding Window和Superpixels作為baseline,不是重點就不展開說了。

這裡作者提出這樣的假設:一個好的OP方法應該具有比較好的複現能力,也就是相似的圖檔中檢索出來的object應該是具有一緻性的。驗證的方法是對PASCAL的圖檔做了各種擾動(如Figure 2),然後看是否還能檢測出來相同的object的recall是多少,根據IoU的嚴格與否能夠得到一條曲線,最後計算曲線下面積得到repeatability。

這裡圖表很多具體請看原論文,這裡直接上作者的結論,Bing和Edgeboxes在repeatability上表現最好。

這裡提出了好的OP方法應該有着較高的recall,不然就要漏掉檢測的物體了。這裡讨論了三種衡量recall的方式:

  1. Recall versus IoU threshold: 固定proposal數量,根據不同的IoU标準來計算recall
  2. Recall versus number of proposal windows: 跟1互補,這裡先固定IoU,根據不同的proposal數目來計算recall
  3. Average recall(AR): 作者提出的,這裡隻是根據不同的proposal數目,計算IoU在0.5到1之間Recall。

資料集方面,作者在PASCAL VOC07和ImagNet Detection dataset上面做了測試。

這裡又有不少圖,這裡隻貼一張AP的,其他請參考原論文咯。

還是直接上結論

  • MCG, EdgeBox,SelectiveSearch, Rigor和Geodesic在不同proposal數目下表現都不錯
  • 如果隻限制小于1000的proposal,MCG,endres和CPMC效果最好
  • 如果一開始沒有較好地定位好候選框的位置,随着IoU标準嚴格,recall會下降比較快的包括了Bing, Rahtu, Objectness和Edgeboxes。其中Bing下降尤為明顯。
  • 在AR這個标準下,MCG表現穩定;Endres和Edgeboxes在較少proposal時候表現比較好,當允許有較多的proposal時候,Rigor和SelectiveSearch的表現會比其他要好。
  • PASCAL和ImageNet上,各個OP方法都是比較相似的,這說明了這些OP方法的泛化性能都不錯。

  • 如果OP方法定位越準确,那麼對分類器幫助會越大,因為定位越準确,分類器傳回的分數會越高:
  • 在LM-LLDA和R-CNN下,使得mAP最高的前5個OP方法都是MCG,SeletiveSearch,EdgeBoxes,Rigor和Geodesic。

    分數一覽如下圖。

  • 通過分析,作者發現AR和mAP有着很強的相關性:
  • 作者用AR作為指導去tuning EdgeBoxes的參數,然後取得了更好的mAP(提高1.7個點)

  1. 對于repeatability這個标準,目前的OP方法效果都一般。可能通過對噪聲和擾動更加魯棒的特征能夠提高OP方法的repeatablilty。但是repeatability低不代表最後mAP就低,比如SelectiveSearch,是以最後還是看要應用場景。
  2. 如果OP方法定位越準确,那麼對分類器幫助會越大。是以對于OP方法來說,IoU為0.5的recall不是一個好的标準。高recall但是定位不準确,會傷害到最後的mAP
  3. MCG,SeletiveSearch,EdgeBoxes,Rigor和Geodesic是目前表現最好的5個方法,其中速度以EdgeBoxes和Geodesic為優。
  4. 目前的OP方法在VOC07和ImageNet的表現都差不多,說明它們都有着不錯的泛化性能。
  1. 如果計算能力上去了,OP還有用嗎?作者認為如果運算性能允許的話,滑動視窗加上CNN等強分類器會有着更好的效果。
  2. 作者觀察到在目前OP中使用的特征(比如object boundary和superpixel),不會在分類器中使用;然後OP方法中除了MultiBox之外就沒有其他OP有使用CNN特征。作者期待會有工作能夠結合下這兩者的優勢。
  3. 最後,作者對做了三點猜測:之後top down可能會在OP中起到更加重要的作用;以後OP和detector的聯系會更加緊密;OP生成的segmentation mask會起到更加重要的作用。
下一篇: 資料同步