天天看點

ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答

ReGAT-關系感覺圖形注意網絡用于視覺問答

為了充分了解圖像中的視覺場景,特别是不同對象之間的互動,我們提出一個關系感覺圖注意網絡:它将每幅圖檔編碼成一個圖,并通過圖注意機制建立多類型的對象間關系模型,以學習問題自适應關系表示,同時探讨了兩種視覺對象關系:(1)表示對象之間幾何位置和語義互動的顯示關系。(2)捕捉圖像區域之間隐藏動态的隐式關系。

1. 引言

VQA任務是訓練一個能夠對多模态輸入士想全面和語義對齊的了解的模型,也即是給定一個圖像和一個自然語言描述的問題,任務将圖像的視覺特征和語義聯系起來,進而正确回答問題。

目前最新的技術,就是利用RCNN提取的圖像區域的稀疏集和利用RNN的問題編碼,再利用多模态融合來學習表示每個單獨區域與問題之間的比對的聯合表示,再将這個聯合表示送入到一個答案預測器中以産生一個答案。

但是存在的問題:

圖像和自然語言之間存在語義鴻溝,例如一組斑馬圖像,模型可以識别斑馬的黑白色,但是不能識别哪個像素來自哪個斑馬???而且要回答諸如最右邊的斑馬是幼年?斑馬在吃草嗎?等問題,VQA不僅要識别物體(斑馬)和周圍環境(草)還需要識别圖像和問題關于動作(吃,躺,玩)、以及位置(上下左右)的語義

解決方向:

①檢測鄰近物體的相對幾何位置,與問題中的空間描述對齊。

②學習物體之間的語義依賴,來捕捉視覺場景中的互動動态。

為此,我們提出了關系編碼器,可以捕獲靜态對象或區域之外的對象間關系,此關系編碼器學習了顯性關系(空間/位置,語義/可操作)和隐性關系,其中圖像用圖表示,通過圖注意機制來捕獲對象之間的互動。

注意:圖注意是基于問題的上下文來學習的,允許語義資訊從問題注入到關系編碼階段。這樣以來,關系編碼器學習到的特征,不僅捕獲圖像中對象之間的互動内容還包括問題中語義線索。

我們的貢獻:

①:提出關系編碼器,通過圖注意網絡學習視覺對象之間的顯示或隐式關系。

②:學習的關系關于問題是自适應的,就是可以動态捕獲與每個問題最相關的圖像對象關系。

③:在VQA2.0上取得最先進的性能。

案例1:圖一案例步驟大緻如下:

①圖像特征提取:使用RCNN提取一組目标區域建議。

②問題編碼:使用問題編碼器進行問題嵌入。

③關系編碼器:将每個區域的卷積和邊界框特征注入到編碼器中。以從圖像中學習關系感覺,問題自适應,區域級别的表示。

④模态融合:将學習到的關系感覺和問題編碼嵌入送到多模态融合模型中生成一個聯合表示

⑤答案預測:将聯合表示送入到答案預測器中,生成答案。

ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答

2. 相關工作

此處略

3.關系感覺圖注意網絡

一個VQA任務可由如下公式定義:給定圖像I和問題q,目标預測a,這是一個分類問題

下圖:是我們的模型詳細說明,該模型由圖像編碼器,問題編碼器,關系編碼器組成。

圖像編碼器:包含視覺特征向量 { v i } i = 1 K , v i ∈ R d v \{v_i\}^K_{i=1} , v_i \in R^{d_v} {vi​}i=1K​,vi​∈Rdv​, 邊界框特征向量 b i ∈ R d b b_i \in R^{d_b} bi​∈Rdb​(K=36,dv=2048,db=4), b i = [ x , y , w , h ] ( x , y ) b_i =[x,y,w,h](x,y) bi​=[x,y,w,h](x,y)是邊界框左上方位置,w是寬,h是高

問題編碼器:使用帶有門控遞歸單元(GRU)的雙向RNN,并對RNN的隐藏狀态的順序進行自我注意,來生成問題嵌入。( q ∈ R d q , d q = 1024 維 在 我 們 實 驗 中 q \in R^{d_q} ,d_q=1024維在我們實驗中 q∈Rdq​,dq​=1024維在我們實驗中)

ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答

3.1 圖建構

  • 完全連接配接關系圖:将圖像中的每個對象 v i v_i vi​視為一個頂點,建構完全連接配接的無向圖 G i m p = ( V , E ) Gimp=(V,E) Gimp=(V,E)其中E是K(K-1)個邊的集合。每個邊代表兩個對象間的隐式關系,這可以通過圖注意力學習後配置設定給每個邊的權重來反應。無需先驗知識,即可隐式學習所有權重,将此命名為 G i m p Gimp Gimp,隐式(implicit)關系編碼
    ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答
  • 基于先驗知識的圖修剪:如果将頂點之間不存在顯示關系的邊來删除掉,就可以将隐式關系圖轉換成顯式關系圖。對于每隊對象 < i − p − j > <i-p-j> <i−p−j>是有效關系,則從i->j建一條邊,并帶有邊标簽p,此外還為i配置設定一個自環邊,将該邊标記為identical。通過這種方法,圖變得稀疏,并且每個邊都編碼有關圖像中一個對象間關系的先驗知識。稱此為顯式(explicit)關系編碼器。
    ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答
    注:這些顯式特征需要經過預訓練的分類器以離散類标簽的行式提取關系。本文基于此修剪圖探讨了:空間圖和語義圖,以捕獲對象之間的位置關系和動作關系,這在任務中必不可少的。
  • 空間圖:讓 s p a i , j = < o b j e c t i − p r e d i c a t e − o b j e c t j > spa_{i,j} = <object_i - predicate - object_j> spai,j​=<objecti​−predicate−objectj​>表示 o b j e c t i object_i objecti​相對于 o b j e c t j object_j objectj​的幾何位置的空間關系。為了構造空間圖 G s p a Gspa Gspa,在給定兩個對象區域建議 o b j e c t i object_i objecti​和 o b j e c t j object_j objectj​的情況下,将 s p a i , j spa_{i,j} spai,j​分為11個不同的類别(例如,對象i在j内,j在i内,等)如圖。
    ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答
    注意:由空間關系形成的邊是對稱的,如果<objecti-pi,j-objectj >是一個有效的空間關系,則必須存在一個有效的空間關系spaj,i =<objectj-pj,i-objecti >。但是,pi j和pj i這兩個謂詞是不同的
  • 語義圖:為了構造語義圖需要提取對象之間的語義關系(如< subject - predicate - object>)。這可以通過在視覺關系資料集上訓練語義關系分類器來表述為分類任務。

    給定兩個對象區域i和j,目标是确定哪個謂詞p表示這兩個區域之間的語義關系< i-p-j >。這裡,主語j和賓語i之間的關系是不可互換的,意思是語義關系所形成的邊緣是不對稱的。對于一個有效的<i-pi,j-j>,可能不存在關系<j-pj.i-i>。例如< man-holding-bat >是一個有效的關系,但bat與man之間不存在語義上的關系。

    具體分類模型步驟如下:

    ①需要在三個輸入:subject的區域特征向量vi,和object的區域特征向量vj,以及包含i和j的聯合邊界框的區域級别特征向量 v i , j v_{i,j} vi,j​。這三種類型的特性從預訓練對象檢測模型中得到的,

    ②然後通過嵌入轉換層将嵌入的特征進行連接配接,并送入分類層,生成超過14個語義關系的softmax機率,并附加一個無關系類。

    ③然後使用訓練好的分類器來預測給定圖像中任意一對目标區域之間的關系。語義關系的例子如圖3(b)所示:

    ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答

3.2 關系編碼

  • Question-adaptive問題自适應圖的注意:關系編碼器是對圖像中對象之間的關系進行編碼。對于VQA任務,可能存在對不同問題類型有用的不同類型的關系。是以,在設計關系編碼器時,我們使用問題自适應注意機制,從問題中注入語義資訊到關系圖中,動态地賦予與每個問題最相關的關系較高的權值。首先将問題嵌入q與K個視覺特征vi連接配接起來,表示
    ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答
ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答

這裡 N i N_i Ni​表示對象i的鄰居:

ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答

為了使注意力機制穩定,我們采用多頭注意力:

ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答

最後, v i ∗ v^*_i vi∗​ 被添加到原始的視覺特征vi中,作為最終的關系感覺特征

  • 隐式關系:
    ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答
    然後通過計算不同波長的餘弦和正弦函數将其嵌入到一個dh維特征中w ∈ Rdh,将dh維特征轉換為标量權值,在0處被進一步裁剪,與我們在顯式關系設定中假設彼此距離太遠的對象沒有關系不同,隐式關系的限制是通過w和零修剪操作學習的
  • 顯式關系:我們首先考慮語義關系編碼器。由于語義圖Esem中的邊包含标簽資訊并且是有方向性的,是以我們在(3)中設計了對兩種方向性都敏感的注意機制(vi->vj,vj->vi,vi->vi)和标簽,具體如下:
    ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答
    與圖卷積網絡不同,該圖注意機制有效地為相同鄰域的節點配置設定不同的重要度。結合問題自适應機制,習得的注意權值可以反映哪些關系與特定問題相關。

3.3 多模式融合和答案預測

  • 多模态融合

    通過關系網絡獲得的關系感覺的視覺特征 v ∗ v^* v∗之後,将其與問題資訊特征q通過多模型融合政策進行融合,學習聯合表示J.

    ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答
    f是一個多模式融合方法和Θ可學習的融合子產品的參數。
  • 答案預測

    對于答案預測器,我們采用一個雙層多層感覺器(MLP)作為分類器,以聯合表示J作為輸入。損失函數采用二進制交叉熵,在訓練階段,對不同關系的編碼器進行獨立訓練。在推理階段,我們将三圖注意網絡與預測答案分布的權重和相結合。具體來說,最終答案分布由如下公式給出:

    ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答
    這裡的α和β是權衡hyper-parameters,(0≤α+β≤1,0≤α,β≤1).Prsem(a=ai),Prspa(a=ai),Primp (a=ai)表示答案ai的預測機率,分别從語義關系、空間關系和隐式關系訓練的模型中得到。

4.實驗

ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答
ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答

5.可視化

ReGAT-關系感覺圖形注意網絡用于視覺問答ReGAT-關系感覺圖形注意網絡用于視覺問答

6. 總結

我們提出了一種新型的視覺問題回答架構——關系感覺圖注意網絡(ReGAT),利用問題适應注意機制對多類型對象關系進行模組化。ReGAT利用兩種類型的視覺對象關系:顯式關系和隐式關系,通過圖注意學習關系感覺區域表示。我們的方法在VQA 2.0和VQA- cp v2資料集上都取得了最新的結果。提出的ReGAT模型與通用的VQA模型相容。在兩個VQA資料集上的綜合實驗表明,我們的模型可以以即插即用的方式注入到最先進的VQA體系結構中。在以後的工作中,我們将研究如何更有效地融合這三種關系,以及如何利用每種關系來解決特定類型的問題。

繼續閱讀