《Edge Boxes: Locating Object Proposals from Edges》讀後感~

《Edge Boxes: Locating Object Proposals from Edges》是ECCV2014的一篇關于目标檢測的一篇文章，作者是來自于微軟研究院的Piotr等人，屬于大中牛範疇。本文并沒有涉及到“機器學習”，其采用的是純圖像的方法，這點讓我大感意外，因為很多提取proposals的文獻，例如BING等，都是基于學習理論的方法。此外，本文的許多内容，甚至數學公式，都是基于作者的直覺直接建立，可以說，牛的一腿。。。。。

一篇學術paper，一般由研究目标，研究方法和實驗結論組成，以下部分分别從這幾方面進行介紹。

本文的研究目的：為了加速現有目标檢測算法，提出了一種能夠以較高精度确定proposal的新方法。其中，proposal還沒有一個确定的中文翻譯，一般被稱作“目标大概可能的位置”。這個概念非常重要，我們大家想想，當我們看到一幅圖像的時候，我們絕對不會像傳統檢測算法那樣，從圖像左上角開始掃描圖像，而是一眼“縱觀全局”，直接發現目标“大概的位置”，然後進一步細看，proposal正是由人類這一特質啟發，而提出的。顯而易見，這樣的方式，速度會很快，但是，如果proposal提取的不準，那麼就悲催了。

本文的研究方法：利用邊緣資訊（Edge），确定框框内的輪廓個數和與框框邊緣重疊的輪廓個數（這點很重要，如果我能夠清楚的知道一個框框内完全包含的輪廓個數，那麼目标有很大可能性，就在這個框中。這也是作者的一大直覺，牛吧？），并基于此對框框進行評分，進一步根據得分的高低順序确定proposal資訊（由大小，長寬比，位置構成）。而後續工作就是在proposal内部運作相關檢測算法。

下面試着詳細介紹本文算法流程。

《Edge Boxes: Locating Object Proposals from Edges》讀後感~

圖 1. 算法思想圖示

圖1來自于文獻，箭頭是我自己加的，我覺得這幅圖像，可以很好的說明該文的算法思想。

首先，第一行是原圖，第二行是基于文獻《Structured Forests for Fast Edge Detection》所提出的結構化邊緣檢測算法，得到的邊緣圖像，這時的邊緣圖像顯得很緊密，需要用NMS進一步處理得到一個相對稀疏的邊緣圖像。

其次，第三行中，本來灰色的邊緣變成了五顔六色的邊緣，其實這些五顔六色的邊緣是基于某種政策，将邊緣點集合起來得到的N多個小段，論文中，叫做edge group。所采用的的政策是：将近乎在一條直線上的邊緣點，集中起來形成一個edge group，具體的做法是，不停地尋找8連通的邊緣點，直到兩兩邊緣點之間的方向角度內插補點的和大于pi/2，這樣便得到了N多個edge group。

再其次，得到N個edge group之後，還要進一步計算兩兩edge group之間的相似度，相似度的公式很簡單，如下：

《Edge Boxes: Locating Object Proposals from Edges》讀後感~

這樣變使得，如果兩個edge group越在一條直線上，上述公式計算得到的相似度就越高，反之亦然。作者之是以引入edge group概念，是為了确定輪廓個數做準備，因為一個輪廓中的所有edge group當然是最相似的，這點可以在紙上畫畫，十分明顯。

最後，讓我們看看作者是怎麼根據edge group來确定輪廓的。作者的做法在我看起來很奇葩，他給每一個edge group一個權值，換句話說，打個分數，然後把權值均為1的edge group歸為框框内輪廓上的一部分，把權值為0的edge group歸為框框外或者與框框邊界重疊的輪廓的一部分。采用了一個數學公式達到了上述目的，如下：

《Edge Boxes: Locating Object Proposals from Edges》讀後感~

其中，T是指從框框的邊緣開始到達si的edge group序列集合，當然，會有很多個T，看到沒，它的目标就是從這麼多的路徑T中，尋找相似度最高的路徑，這就是傳說中的輪廓。值得注意的是，在某路徑T上，一旦出現相似度為0（這很容易出現）的情況，這條路徑T就廢棄了，是以想找到那個合适的T，真的很快。。。。

最最後，作者給出了框框的評分（具體公式沒什麼好解釋的，就不給出了）。然後就得到了倒數第二行的效果，效果還是很不錯的。

綜上，給出自己畫的算法流程圖，如下所示：

《Edge Boxes: Locating Object Proposals from Edges》讀後感~

本文的實驗效果：作者和幾個目前流行的proposal提取算法進行了比較，得到了比較不錯的效果，主要是基于經典的PASCAL VOC資料集，但是不得不說，他把BING弄得太差了。另外，這個算法存在一個較大的缺陷。

本文算法的不足：一句話，通過demo測試，發現，其評分較高的proposals均為近乎整幅圖像，比如說，圖像中有8個人，那麼該算法評分最高的proposal肯定是同時包含了這8個人的，這一點不足，使得這個算法的含金量大大縮水，因為，在實際應用中，我想要的效果往往是，最高評分的幾個proposal最好是單獨的人，而不是8個人一起。

至于原因，不難了解，上面已經說過了，本文不是基于“學習”的算法，沒有訓練過程，不可能像BING那樣，訓練了單獨人體，那麼最高評分的proposal肯定就是單獨的人體，訓練了汽車，那麼最高評分的proposal肯定就是單獨的汽車等等。。。。

關于讀後感：其實這篇文章，我有很多細節還沒有說出來，一方面時間不夠，另一方面，自己的文采不行，說多了就會顯得啰嗦。是以，還請各位讀者不吝批評賜教，大家一起學習，共同進步！！！！

（轉載請注明：http://blog.csdn.net/wsj998689aa/article/details/39476551）

《Edge Boxes: Locating Object Proposals from Edges》讀後感~

繼續閱讀

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

PLDA簡介

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

GridView終極用法(一)

hdu7108哈希