An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Lea

2023-07-31 11:40:44

An End-to-End Approach to Natural Language Object Retrieval

via Context-Aware Deep Reinforcement Learning

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Lea

這篇文章的核心就是使用使用強化學習的觀點，在圖像西紅找出最合适的物體邊框。強化學習的核心是在不同的狀态下執行不同的動作，那麼應該如何模組化。作者将将圖像看做state，然後初始化了8和action，這8個action分為兩組，第一組執行上下左右四個動作改變候選框的位置，第二組動作就是想改變候選框的大小。其實這個方法在object detection裡面也有應用，如下所示。

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Lea

第二組動作改變圖像的大小的具體方法：加入目前狀态下的左上角和右下角的坐标是(x1,y1),(x2,y2),假若向下移動，則變為(x1+0.2,x2+0.2)(x2+0.2,y2+0.2),哈哈，就是改變一下位置嘛。

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Lea

至于網絡架構，首先使用ResNet提圖像的特征，注意并沒有resize到固定的次元，其實在有Ground truth的圖像中，不用resize，因為也以使用ROI pooling加上Ground Truth的資訊，可以提取出local和global的資訊。網絡最終輸出動作值函數和值函數。另外考慮到動作之間的依賴性，将前50個回合中的動作也被考慮在内。

深度學習入門

上一篇: End-to-End Learning of Deep Visual Representations for Image Retrieval

下一篇: 論文閱讀《Multimodal Remote Sensing Image Registration Based on Image Transfer and Local Features》

繼續閱讀