天天看點

《Edge Boxes: Locating Object Proposals from Edges》讀後感~

《Edge Boxes: Locating Object Proposals from Edges》是ECCV2014的一篇關于目标檢測的一篇文章,作者是來自于微軟研究院的Piotr等人,屬于大中牛範疇。本文并沒有涉及到“機器學習”,其采用的是純圖像的方法,這點讓我大感意外,因為很多提取proposals的文獻,例如BING等,都是基于學習理論的方法。此外,本文的許多内容,甚至數學公式,都是基于作者的直覺直接建立,可以說,牛的一腿。。。。。

一篇學術paper,一般由研究目标,研究方法和實驗結論組成,以下部分分别從這幾方面進行介紹。

本文的研究目的:為了加速現有目标檢測算法,提出了一種能夠以較高精度确定proposal的新方法。其中,proposal還沒有一個确定的中文翻譯,一般被稱作“目标大概可能的位置”。這個概念非常重要,我們大家想想,當我們看到一幅圖像的時候,我們絕對不會像傳統檢測算法那樣,從圖像左上角開始掃描圖像,而是一眼“縱觀全局”,直接發現目标“大概的位置”,然後進一步細看,proposal正是由人類這一特質啟發,而提出的。顯而易見,這樣的方式,速度會很快,但是,如果proposal提取的不準,那麼就悲催了。

本文的研究方法:利用邊緣資訊(Edge),确定框框内的輪廓個數和與框框邊緣重疊的輪廓個數(這點很重要,如果我能夠清楚的知道一個框框内完全包含的輪廓個數,那麼目标有很大可能性,就在這個框中。這也是作者的一大直覺,牛吧?),并基于此對框框進行評分,進一步根據得分的高低順序确定proposal資訊(由大小,長寬比,位置構成)。而後續工作就是在proposal内部運作相關檢測算法。

下面試着詳細介紹本文算法流程。

《Edge Boxes: Locating Object Proposals from Edges》讀後感~

                                                                                              圖 1. 算法思想圖示

圖1來自于文獻,箭頭是我自己加的,我覺得這幅圖像,可以很好的說明該文的算法思想。

首先,第一行是原圖,第二行是基于文獻《Structured Forests for Fast Edge Detection》所提出的結構化邊緣檢測算法,得到的邊緣圖像,這時的邊緣圖像顯得很緊密,需要用NMS進一步處理得到一個相對稀疏的邊緣圖像。

其次,第三行中,本來灰色的邊緣變成了五顔六色的邊緣,其實這些五顔六色的邊緣是基于某種政策,将邊緣點集合起來得到的N多個小段,論文中,叫做edge group。所采用的的政策是:将近乎在一條直線上的邊緣點,集中起來形成一個edge group,具體的做法是,不停地尋找8連通的邊緣點,直到兩兩邊緣點之間的方向角度內插補點的和大于pi/2,這樣便得到了N多個edge group。

再其次,得到N個edge group之後,還要進一步計算兩兩edge group之間的相似度,相似度的公式很簡單,如下:

《Edge Boxes: Locating Object Proposals from Edges》讀後感~

這樣變使得,如果兩個edge group越在一條直線上,上述公式計算得到的相似度就越高,反之亦然。作者之是以引入edge group概念,是為了确定輪廓個數做準備,因為一個輪廓中的所有edge group當然是最相似的,這點可以在紙上畫畫,十分明顯。

最後,讓我們看看作者是怎麼根據edge group來确定輪廓的。作者的做法在我看起來很奇葩,他給每一個edge group一個權值,換句話說,打個分數,然後把權值均為1的edge group歸為框框内輪廓上的一部分,把權值為0的edge group歸為框框外或者與框框邊界重疊的輪廓的一部分。采用了一個數學公式達到了上述目的,如下:

《Edge Boxes: Locating Object Proposals from Edges》讀後感~

其中,T是指從框框的邊緣開始到達si的edge group序列集合,當然,會有很多個T,看到沒,它的目标就是從這麼多的路徑T中,尋找相似度最高的路徑,這就是傳說中的輪廓。值得注意的是,在某路徑T上,一旦出現相似度為0(這很容易出現)的情況,這條路徑T就廢棄了,是以想找到那個合适的T,真的很快。。。。

最最後,作者給出了框框的評分(具體公式沒什麼好解釋的,就不給出了)。然後就得到了倒數第二行的效果,效果還是很不錯的。

綜上,給出自己畫的算法流程圖,如下所示:

《Edge Boxes: Locating Object Proposals from Edges》讀後感~

本文的實驗效果:作者和幾個目前流行的proposal提取算法進行了比較,得到了比較不錯的效果,主要是基于經典的PASCAL VOC資料集,但是不得不說,他把BING弄得太差了。另外,這個算法存在一個較大的缺陷。

本文算法的不足:一句話,通過demo測試,發現,其評分較高的proposals均為近乎整幅圖像,比如說,圖像中有8個人,那麼該算法評分最高的proposal肯定是同時包含了這8個人的,這一點不足,使得這個算法的含金量大大縮水,因為,在實際應用中,我想要的效果往往是,最高評分的幾個proposal最好是單獨的人,而不是8個人一起。

至于原因,不難了解,上面已經說過了,本文不是基于“學習”的算法,沒有訓練過程,不可能像BING那樣,訓練了單獨人體,那麼最高評分的proposal肯定就是單獨的人體,訓練了汽車,那麼最高評分的proposal肯定就是單獨的汽車等等。。。。

關于讀後感:其實這篇文章,我有很多細節還沒有說出來,一方面時間不夠,另一方面,自己的文采不行,說多了就會顯得啰嗦。是以,還請各位讀者不吝批評賜教,大家一起學習,共同進步!!!!

(轉載請注明:http://blog.csdn.net/wsj998689aa/article/details/39476551)

繼續閱讀