[轉載] BING: Binarized Normed Gradients for Objectness Estimation at 300fps

這幾天看到了Objectness這一課題，挺有意思的。程明明CVPR2014文章的結果效率與準确性均非常突出。

出處： http://www.cvchina.info/2014/02/25/14cvprbing/

BING: Binarized Normed Gradients for Objectness Estimation at 300fps. Ming-Ming Cheng, Ziming Zhang, Wen-Yan Lin, Philip Torr, IEEE CVPR, 2014. [Project page][pdf][bib]

亮點巨多：

在PASCAL VOC資料集上取得了State of the art的Detection Rate
比PAMI2012， PAMI 2013， IJCV 2013 的方法快了1000倍，測試速度達300個圖像每秒！
計算一個window的objectness score僅需2個float乘法，一個float加法，十來個bitwise operation。
沒有各種複雜的計算，算法代碼100行以内。
在整個PASCAL VOC 2007資料集上，Training不需要幾周，不需要幾天，僅需20秒鐘！
有望for free的加速幾乎所有object detection方法。去年CVPR best paper，以及在VOC上跑出最好成績的ICCV 2013 Oral paper, 在共同抱怨的generic object proposal的速度瓶頸完全解決了。應該最多再過一年，各種realtime，high performance的multi-object detection将迅速湧現。
我來牛津一年多了，第一次在組内reading group （http://www.robots.ox.ac.uk/~vgg/rg/）上聽Prof. Andrew Zisserman （全世界唯一拿過3次Marr獎的教授，論文citaiton 6萬多）在組内讨論中對一個paper給這麼正面的評價，并在我作組内reading group報告當天安排自己的學生開始做後續工作。
由于這次隻用了最最簡單的feature （梯度絕對值），最簡單的學習方法（Linear SVM）。應該非常容易進行擴充和改進。
我2011年釋出Saliency region detection代碼的時候，當時覺得會有比較多的後續工作（後來證明光我自己的論文就有400多次引用），但也沒有這次這個topic這麼讓人激動！相信未來一段時間将有非常多的領域會産生深刻的變化。為了推動這一變化，算法已經與一個小時前共享了出來：C++代碼 http://mmcheng.net/bing/

人去識别一個照片，沒見過誰用sliding window的方式一個個仔細的判斷。是以Objectness 和 Saliency機制很相關，我感覺用objectness應該是detection的正确機制。

關于Salient object detection，如果一個圖像隻生成一個saliency map的話，用單張圖像搞Saliency map，發展空間已經不是特别大了，我11年投PAMI那篇在MSRA1000上做到了93%左右的FMeasure，之後沒看過别的比我CVPR11論文中segmentation結果（F = 90%）更高的正确率。用多張圖像，特别是從internet上随機download的圖像，從中提取有用的Salient object，并自動剔除單張圖像分析産生的錯誤，應該還有很多事情可做。具體可參考：http://mmcheng.net/gsal/

關于Objectness，CVPR14這個充其量隻算開了個頭。因為隻用了最最弱的feature（梯度：相鄰像素顔色相減的絕對值）和學習方法（LinearSVM）來刻畫我對這個問題的observation。進一步對初步結果做分析，将1000個proposal降低到幾百個，甚至幾十個，并同時保持較高的recall，将會有很多工作可做。從1千降到幾十，将是一個漫長的過程，估計需要上百篇paper的不懈努力才有可能實作。

要是在未來幾年，能将proposal數目降低到個位數，将會深刻影響圖像編輯領域，我們也可能可以直接通過語音指令在沒有分類器存在的情況下發出控制指令，例如“把這個object給我變大…”。關于語音控制的semantic parsing和圖像編輯，有興趣的話可以參考：http://mmcheng.net/imagespirit/ 。這個paper接收後也會公布代碼。