1.寫在前面
原文來自知網《基于視覺-文本關系對齊的跨模态視訊片段檢索》
這是一篇關于利用文本進行視訊片段檢索的論文。
2.論文要點
論文總結了前人研究工作的缺點,并借助圖結構在表達關系時的強大能力與圖卷積網絡的近年發展,,提出了跨模态關系對齊的圖卷積架構 CrossGraphAlign,
具體就是CrossGraphAlign首先為查詢文本和待檢索視訊分别生成文本關系圖和視覺關系圖。接着CrossGraphAlign中的視覺-文本關系對齊的圖卷積網絡試圖比對一段時間内的文本關系圖和視覺關系圖。最後基于比對結果,CrossGraphAlign将預測查詢文本在視訊中的起時和結束時間。
即通過分别建構文本關系圖,視覺關系圖來模組化查詢文本與視訊片段中的語義關系。,再通過跨模态對齊圖卷積網絡來評估文本關系與視覺關系的相似度。
2.1 文本關系圖子產品
輸入查詢文本,輸出以實體特征為節點,文本關系特征為邊的圖。 G L = ( O L , E L ) , 其 中 O L = { o 1 L , o 2 L . . . o n L } G^L = (O^L, E^L),其中O^L=\{o^L_1,o^L_2...o^L_n\} GL=(OL,EL),其中OL={o1L,o2L...onL},表示文本中的實體的特征集合。
首先将文本解析為依存樹,而後使用場景圖解析提取文本關系,最後使用詞向量方法GloVe來特征化場景圖,進而建構出文本關系圖。如下:
2.2 視訊關系圖子產品
輸入目标檢測結果,建構以視覺物體特征為節點,視覺關系為邊的圖。它的圖建構與文本類似,其特征提取主要包括視覺物體特征提取和視覺關系特征提取
-
視覺物體特征提取:基于 Faster R-CNN 進行視覺物體的特征提取;
RoIPooling 層 在特征圖 (即, 圖 中的 backbone feature) 上提取每一區域的特征, 作為執行個體特征 (instance feature). 同時, 我們還将目辨別别出的類别經過 GloVe 方法表征為向量, 作為标簽特征 (label feature), 與執行個體特征拼接 (concat) 後一起作為視覺物體特征. 為了進一步表示物體的位置資訊, 我們将物體的歸一化的坐标作為**位置特征 (location feature),**與上述特征一起拼接, 形成視覺物體特征. 提取後的視覺物體特征将作為視覺關系圖的節點特征;
-
視覺關系特征提取:我們基于在場景圖生成任務中常用的 Union Box 概念進行視覺物體間關系的提取;
給定兩個目标的邊界框 (x1, y1,w1, h1) 與 (x2, y2, w2, h2), Union Box 用于表示兩個物體邊界框的最小外接框 (min (x1, x2), min (y1, y2), max (w1, w2), max (h1, h2)). 在獲得 Union Box 後,我們仿照視覺物體特征提取的方式, 利用 RoI Pooling 提取關系特征為視覺關系的邊特征 E V E^V EV,這裡的關系并沒有被顯示表達,可以在學習中學習合适的表達。
2.3 關系對齊子產品
根據文本關系與視覺關系圖進行雙方的比對,輸出符合查詢文本描述的片段。
首先改造圖卷積網絡 ,以期對關系圖進行自身資訊的更新; 而後對視覺關系圖與文本關系圖進行特征表示, 用于計算比對度分數. 具體而言, 我們提出以關系為中心的更新 (relationshipcentric update) 機制和關系圖特征嵌入
3.實驗資料集
本文提出的方法在TACoS和ActivityNet Caption上進行了實驗,實驗結果表明:在基線模型中加入CrossGraphAlign後,模型在各個交疊比下的召回率得到了明顯的提升。效果最佳。