天天看點

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

摘要

        語言偏見是視覺問答中的一個關鍵性問題,即經常利用資料集偏見而不是圖像資訊來做最後的決定,導緻模型在域外分布資料的糟糕表現和不充分的視覺解釋性。本文提出一種新的去偏架構--Greedy Gradient Ensemble(GGE),結合多個偏見模型以進行去偏見的模型學習。由于貪婪政策,GGE迫使有偏見的模型優先過度拟合有偏見的資料分布,使得基本模型關注于有偏見模型難以解決的例子。實驗表明我們的方法更好的利用了視覺資訊,并在未使用額外注釋的資料集VQA-CP上實作了最先進的表現。

一、介紹

        語言偏見,即模型經常利用問題和答案的表面相關性來訓練模型,而不考慮視覺資訊。這個問題流行的解決方法可以被分為:基于內建、基于接地、基于反事實。基于內建的方法與傳統的長尾分類中的重新權重和重新采樣類似,它通過隻有問題的分支對樣本重新權重;基于接地的模型根據人類注釋的視覺解釋強調對圖像資訊的更好利用;最新提出的基于反事實的方法進一步結合了這兩種工作并實作了更好的表現。而且,現有的方法也并不能充分利用視覺和語言資訊,如基于接地的方法精度的提高并不是來自适當的視覺基礎,而是來自一些未知的正則化效應。

        通過實驗分析,語言偏見實際上為兩種:a)訓練和測試間的統計分布差距,b)特定QA對的語義相關性,如圖1所示。

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

         我們提出了Greedy Gradient Ensemble(GGE),一種模型不可知的去偏架構,繼承了偏見模型和在函數空間的梯度下降的基本模型。我們方法的關鍵思想是利用深度學習中的過度拟合現象。資料的偏見部分被偏見的特征貪婪地過拟合,是以可以用更理想的資料分布學習期望的基本模型,并關注在偏見模型難以解決的例子上。

二、相關工作

三、VQA中的語言先驗

        從實驗中可以得出以下結論:1)好的正确率并不能保證系統在答案分類器上很好的應用了視覺資訊,接地監督或隻有問題正則化可能鼓勵模型利用相反的語言偏見,而不是根号的視覺資訊。2)分布偏見和相關性偏見是VQA中語言偏見的互補方面,一個單一內建分支并不能模組化這兩種偏見。

四、方法

4.1 Greedy Gradient Ensemble

        (X,Y)表示訓練集,X表示觀察空間,Y表示标簽空間,根據之前的VQA方法,主要考慮二值交叉熵損失的分類問題:

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

 基線模型直接最小化預測f(X;sita)和标簽Y之間的損失:

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

 導緻模型很容易過拟合資料集的偏見,進而有不好的泛化能力。

        假設B為一組可以基于先驗知識提取的偏見特征,我們拟合偏見模型和基本模型到标簽Y:

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

  hi表示确定偏見特征的一個偏見模型。理想情況下,我們希望資料的偏見部分僅通過偏見模型過拟合,是以基本模型可以學習非偏見的資料分布,為實作此目标,我們提出GGE,偏見模型有很高的有限性拟合資料。

        在函數空間中,假設有Hm,希望找到hm+1添加到Hm上使得損失下降。理論上,hm+1的期望方向是L在Hm處的負導數:

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

  我們将負梯度作為分類的僞标簽,并優化新模型hm+1的BCE損失:

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

  整合所有偏見模型後,對期望的基本模型f進行優化:

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

  在測試階段隻是用基本模型預測。

        更直覺地說,對于一個容易被偏置模型拟合的樣本,其損失−∇L(HM)的負梯度(即基礎模型的僞标簽)将變得相對較小。f(X;θ)将更加關注以前的內建偏置分類器HM難以解決的樣本

        為使上述範式适應批随機梯度衰減(Batch SGD),我們實作兩個優化排程GGE-疊代和GGE-together,對于GGE-iter,每個模型都在特定的資料批處理疊代中疊代更新。GGE-tog共同優化了偏執模型和基本模型:

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

 4.2 魯棒VQA的GGE實作

        我們定義兩種偏見特征:分布偏見和shortcut偏見。

(1)分布偏見

        我們将分布偏見定義為基于問題類型的訓練集答案分布:

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

 以問題類型為條件計算樣本的原因是為了在減少分布偏見時保持類型資訊。

(2)Shortcut 偏見

        表示特定問答對的語義相關性,我們将問題shortcut偏見作為一個隻有問題的分支:

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

         為驗證我們提出的分布偏見和shortcut偏見是互補的,我們設計三個版本的GGE來處理不同語言偏見的集合。

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

(1)GGE-D

        隻模組化內建的模型分布偏見,如圖2b,基本模型的損失是:

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

(2)GGE-Q

        隻使用一個基于問題的分支為shortcut偏見,如圖2c,首先優化有标簽的答案的隻有問題分支:

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

 基本模型的損失為:

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

 (3)GGE-DQ

        使用分布偏見和問題shortcut偏見,如圖2d,Bq的損失為:

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

 基本模型的損失為:

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

 4.3 連接配接到增強

        增強是一種廣泛應用的解決分類問題的內建政策,增強的主要思想是将多個高偏見、低方差的弱分類器相結合,成為一個低偏見、和低方差的強分類器。每個基本學習器都必須足夠弱,否則,最初的幾個分類器将很容易過拟合訓練資料,然而,神經網絡拟合能力太強,不能成為增強政策的高偏見和低方差,很難使用深度模型作為弱學習器。本文中,我們的方法利用這種過拟合現象,使偏見弱特征過拟合偏見分布。在測試階段明知是用由偏見模型梯度訓練的基本模型。

 五、實驗

5.1 評估名額

       一個新的名額--正确預測但不合适的接地CPIG來評估視覺接地性,定義1-CPIG為CGR(為正确預測的正确接地):

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

為了定量評估模型是否使用視覺資訊來回答決策,我們引入了CGW(正确的接地,但錯誤的預測):

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

為了進行更清晰的比較,我們将CGR和CGW的差異表示為CGD(正确的接地性):

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

 CGD隻評估視覺資訊是否在回答決策中擷取,這與準确性平行。CGD的關鍵思想是一個模型确實使用視覺資訊,并不僅僅基于正确視覺區域提供正确的預測,且由于不合适的視覺區域也會導緻錯誤的答案。在表2中,UpDn,HINTinv和CSS-Vinv在正确率上實作可比較的表現,但在CGD上顯著下降,正迎合了我們的分析:這些模型在做答案決策時并沒有充分利用視覺資訊。

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

 5.2 與最新模型比較

        将最好的模型GGE-DQ與最先進的偏見減少技術進行比較,包括基于視覺接地的方法HINT, SCR, 基于內建的方法AdvReg, RUBi, LMH, MFH, 基于問題編碼的方法GVQE, DLP,基于反事實的方法CF-VQA, CSS和最近提出的正則化方法MFE。

        在VQA-CP測試集中,GGE-DQ在沒有額外注釋時實作了最先進的表現,優于UpDn正确率17%,CGD13%,驗證了GGE在答案分類和視覺接地能力的影響。在同一個基本模型UpDn之下,我們的方法實作了最好的表現,甚至與使用強壯的基本模型有競争的性能。

        對于問題類型的表現,合成GGE減少了偏見并提高了所有問題類型的表現,尤其時other類問題。CF-VQA在Y/N上表現最好,但是在所有其他名額上都比我們的方法更糟。LMH, LMH-MFE, 和LMH-CSS在Num上超過了其他方法,LMH-CSS在整體準确率上甚至輕微超過GGE-DQ,由于在Num上的高準确率。比較LM和LMH,在Num上明顯增長,由于熵的正則化,然而,有熵正則化的方法在VQA v2上下降幾乎10%,表明這些模型可能過度糾正偏見并大量使用“相反的語言偏見”。

5.3 消融實驗

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

         第一組消融是驗證貪婪內建是否能保證用偏見模型學習偏見資料。我們比較其他兩種內建政策,SUM-DQ直接總結偏見模型和基本模型的輸出,LMH+RUBi結合LMH的分布偏見和RUBi的shortcut偏見。表5所示,SUM-DQ甚至比基線更糟,同時LMH+RUBi的正确率與LMH類似,大約比GGE-DQ糟6%,表示GGE可以真正迫使有偏見的資料被序列化的有偏見模型學習。基于分布或shortcut偏差容易預測的執行個體将被相應的偏見模型很好地拟合。是以,基礎模型必須更加關注困難的例子,并考慮更多的視覺資訊來進行最終決策。

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

        第二組實驗中,比較分布偏見和shortcut偏見,圖3的執行個體分析表明GGE-D隻統一預測,主要改善Y/N在表5中。Bq的工作原理像“硬例挖掘”,但也會引入一些噪音(例如本例中的“鏡像”和“否”)由于反分布偏差。在第一階段減少Bd可以進一步鼓勵發現硬例,并迫使基礎模型捕獲視覺資訊。在圖3中,正确的答案有更高的置信度,并且最高的預測都是基于圖像。如表5所示,GGE-DQ比單偏見版本高出10%。這很好地驗證了我們的主張,即分布偏差和shortcut偏差是語言偏差的兩個互補方面。

5.4 GGE的泛化

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

(1)自我內建

        GGE的表現很大程度取決于預訓練的偏見特征,此特征需要任務或資料集的先驗知識。為進一步讨論GGE的泛化,我們測試一個更靈活的自我內建GGE-SF。GGE-SF将共同表示作為偏見特征,而不是預訓練的隻有問題分支,偏見預測為:

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

 cs表示偏見模型的分類器,訓練過程與GGE-Q一樣。

        如表4,即使沒有預訓練的偏見特征,GGE-SF仍然超過基線,意味着隻要任務或資料集有足夠的偏見,基本模型也可以被視為一個有偏模型。此外,如果我們首先在自我內建之前用GGE-D消除分布偏見,GGE-D-SF的性能也可以與現有的最先進方法相比。

(2)損失函數的泛化

         為對之前工作進行公平比較,我們采用Sigmoid+BCE損失進行上述實驗,實際上,GGE對分類損失是不可知的,在表4中提供關于Softmax+CE損失的額外實驗。

(3)基本模型的泛化

        GGE對基本模型的選擇也是不可知的,提供BAN和S-MRL作為基本模型的額外實驗。

5.5 定性評估

2021:Greedy Gradient Ensemble for Robust Visual Question Answering摘要一、介紹二、相關工作三、VQA中的語言先驗四、方法 五、實驗 六、總結

         圖4表示GGE-DQ如何利用視覺資訊進行推理,我們提供了三種UpDn失敗的例子,第一個關于shortcut偏見,UpDn的預測并沒有基于正确的視覺接地;第二個例子關于分布偏見,UpDn正确的捕捉了視覺區域但仍然依據分布偏見回答問題;最後一個例子是除了y/n之外,減少語言先驗的情況,UpDn隻基于語言上下文in the water回答了boat,然而GGE-DQ提供了正确的回答tv和television,且有更顯著的視覺區域。這些例子定性的驗證了預測的準确率和視覺解釋兩方面的提升。

 六、總結

        本文分析了幾種魯棒VQA的方法,并提出一個新的架構來減少語言偏見。我們證明了VQA的語言偏見可以分為分布偏見和shortcut偏見,然後提出一種貪婪梯度內建政策來逐漸消除這兩種偏見。實驗結果表明我們的偏見分解的合理性和GGE的有效性。我們相信GGE背後的想法是有價值的,并有可能成為資料集偏差問題的通用方法。在未來,我們将擴充GGE來解決其他任務的偏差問題,提供更嚴格的分析來保證模型的收斂性,并學習在沒有先驗知識的情況下自動檢測不同類型的偏差特征。

繼續閱讀