天天看點

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Lea

              An End-to-End Approach to Natural Language Object Retrieval

                        via Context-Aware Deep Reinforcement Learning

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Lea

這篇文章的核心就是使用使用強化學習的觀點,在圖像西紅找出最合适的物體邊框。強化學習的核心是在不同的狀态下執行不同的動作,那麼應該如何模組化。作者将将圖像看做state,然後初始化了8和action,這8個action分為兩組,第一組執行上下左右四個動作改變候選框的位置,第二組動作就是想改變候選框的大小。其實這個方法在object detection裡面也有應用,如下所示。

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Lea

第二組動作改變圖像的大小的具體方法:加入目前狀态下的左上角和右下角的坐标是(x1,y1),(x2,y2),假若向下移動,則變為(x1+0.2,x2+0.2)(x2+0.2,y2+0.2),哈哈,就是改變一下位置嘛。

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Lea

至于網絡架構,首先使用ResNet提圖像的特征,注意并沒有resize到固定的次元,其實在有Ground truth的圖像中,不用resize,因為也以使用ROI pooling加上Ground Truth的資訊,可以提取出local和global的資訊。網絡最終輸出動作值函數和值函數。另外考慮到動作之間的依賴性,将前50個回合中的動作也被考慮在内。

繼續閱讀