【VQA文獻閱讀】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直覺了解最新VQA資料集
前言:有些文獻雖然不是綜述,但其中多多少少都有介紹資料集的情況,對目前公開的VQA資料集有了詳細的介紹,可以起到類似綜述的效果,讓讀者能更好的對現有資料集有更加直覺的認識,其功用類似綜述,該文章中對資料集的分類比較客觀,主要可以分為兩類,一類是自然圖像,用于圖像内容了解研究;一類是合成圖像,用于圖像中的關系推理研究。
文章下載下傳位址
文章目錄
- 【VQA文獻閱讀】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直覺了解最新VQA資料集
-
- Abtract
- 1. Introduction
- 2. Related Work
-
- 2.1.VQA資料集
-
- VQA v1/VQA v2。
- TDIUC [24]
- CVQA [5]
- VQACPv2 [4]
- CLEVR [20]
- CLEVR-CoGenT
- 2.2. VQA Algorithms
- 3. The RAMEN VQA Model
-
- 3.1. Formal Model Definition
- 3.2. Implementation Details
-
- Input Representation
- Model Configuration
- Training Details
- 4. VQA Models Evaluated
-
-
- Bottom-Up-Attention and Top-Down (UpDn)[6]
- Question-Conditioned Graph(QCG) [41]
- Bilinear Attention Network (BAN) [28]
- Relation Network(RN)[48]
- Memory, Attention and Composition (MAC)
- 4.1. Standardizing Models
-
- 5. Experiments and Results
-
- 5.1. Main Results
-
- Generalization Across VQA Datasets.
- Generalization Across Question Types.
- Generalization to Novel Concept Compositions.
- Counting and Numerical Comparisons.
- Other CLEVR Tasks
- 5.2. Ablation Studies
- 5.3. Newer Models
- 6. Discussion: One Model to Rule them All?
- 7. Conclusion
Abtract
視覺問答(VQA)的研究分為兩個陣營:
- 第一個陣營側重于需要自然圖像了解的VQA資料集
-
第二個陣營側重于測試推理的合成資料集
一個好的VQA算法應該兩者都有,但是隻有少數VQA算法是以這種方式測試的。我們在覆寫兩個領域的八個VQA資料集上比較了五種最先進的VQA算法。為了使比較公平,所有模型都盡可能标準化,例如,它們使用相同的視覺特征、回答詞彙等。我們發現,這些方法不能在這兩個領域進行推廣。為了解決這個問題,我們提出了一種新的VQA算法,這種算法在這兩個領域都可以媲美或超過最先進的水準。
1. Introduction
視覺問答(VQA)需要一個了解和推理視覺語言概念的模型來回答關于圖像的開放性問題。
正确回答這些問題需要大量的能力:
包括對象定位、屬性檢測、活動分類、場景了解、推理、計數等等。
第一個VQA資料集包含了真實世界的圖像和衆包問答[36,9]。人們認為這将是一個極其困難的問題,并将其作為視覺圖靈測試的一種形式提出來,以測試計算機視覺的性能。然而,很明顯,許多高性能算法在沒有真正了解視覺内容的情況下,探索了偏見和表面相關性。
例如
回答VQAv1 [9]中所有是/否問題的“是”,這些問題的準确率為71%[25]。
後來自然圖像VQA資料集努力解決這個問題。通過将每個問題與互補的圖像和不同的答案聯系起來:
VQAv2 [16]減少了一些形式的語言偏見。
TDIUC [24]分析了對多種問題和更罕見答案的概括。
CVQA [5]測試概念組成。
VQACPv2 [4]測試訓練和測試分布不同時的性能。
雖然後來的自然圖像資料集減少了偏差,但這些資料集中的絕大多數問題并沒有嚴格測試推理技能。 建立了幾個合成資料集[20,7]作為補救措施。
它們包含簡單的視覺場景,帶有測試多步推理、計數和邏輯推理的挑戰性問題。為了正确評估算法的健壯性,這些資料集的建立者認為算法應該在兩個領域都進行測試[20,7]。
然而,幾乎所有最近的論文都隻報道了這兩個領域中的一個。
CLEVR的最佳算法沒有在自然圖像VQA資料集上測試[19,21,37,44,53],反之亦然[10,6,28,39,13]。
這裡,我們在八個資料集上測試了五個最先進的VQA系統。我們發現,大多數方法在這兩個領域都表現不佳(圖1),有些方法的性能大幅下降。我們提出了一個新的模型,在所有評估的資料集上與最先進的方法競争。
我們的主要貢獻有:
- 我們在八個VQA資料集上對五種最新的算法進行了嚴格的比較,我們發現許多算法不能跨領域推廣。
- VQA算法通常使用不同的視覺特征和答案詞彙,這使得評估性能增益變得困難。我們努力标準化跨模型使用的元件,例如,我們比較的所有算法都使用相同的視覺特征,這需要提升合成場景的方法以使用區域建議。
- 我們發現大多數VQA算法不能了解真實的文字圖像和執行合成推理。所有這些方法在泛化測試中都表現不佳,表明這些方法仍在利用資料集偏差。
- 我們描述了一種新的VQA算法,它在所有資料集上都可以與最先進的方法相媲美,并且整體性能最好。
2. Related Work
2.1.VQA資料集
在過去的四年裡,許多VQA資料集被提出。在這裡,我們簡要回顧一下實驗中使用的資料集。表1給出了這些資料集的統計資料。評論見[25]和[51]。
VQA v1/VQA v2。
VQAv1 [9]是從人類注釋者那裡收集的最早的開放式VQA資料集之一。VQAv1有多種語言偏見,包括一些與特定答案高度相關的問題。VQAv2 [16]試圖通過收集每個問題的互補圖像來減輕這種語言偏見,進而導緻不同的答案,但其他類型的語言偏見仍然存在,例如,與檢測問題相比,推理問題很少。這兩個資料集已被廣泛使用,VQAv2是自然圖像VQA的事實上的基準。
TDIUC [24]
試圖通過将問題分為12種不同的類型來解決注釋者提出的問題類型中的偏見,進而實作細緻入微的任務驅動評估。它有度量标準來評估跨問題類型的概括。
CVQA [5]
是VQAv1的一個再分支,用于測試對訓練中沒有看到的概念作文的概括,例如,如果訓練集詢問“綠燈”和“紅燈”,測試集将詢問“紅燈”和“綠燈”。CVQA測試以看不見的方式組合以前看到的概念的能力
VQACPv2 [4]
重新組織VQAv2,使得每個問題類型的答案在訓練和測試集中有不同的分布,例如,“藍色”和“白色”可能是“什麼顔色…”的最常見答案訓練集中的問題,但這些答案在測試集中很少出現。由于它在訓練集和測試集中有不同的偏差,在VQACPv2上做得好表明該系統通過克服訓練集中的偏差來推廣。
CLEVR [20]
是一個綜合生成的資料集,由具有簡單幾何形狀的視覺場景組成,旨在測試“合成語言和基本視覺推理” CLEVR的問題往往需要複雜推理的長鍊。為了實作對推理能力的精細評估,CLEVR的問題被分為五個任務:“查詢屬性”、“比較屬性”、“存在”、“計數”和“整數比較”。因為所有的問題都是以程式設計方式生成的,是以**CLEVR-Humans[21]**資料集的建立是為了給CLEVR場景提供人工生成的問題,以測試對自由形式問題的泛化。
CLEVR-CoGenT
==測試處理看不見的概念組合和記住舊概念組合的能力。==它有兩個拆分:CoGenT-A和CoGenT-B,形狀+顔色組合互斥。如果在CoGenT-A上訓練的模型在沒有微調的情況下在CoGenT-B上表現良好,10473則表明對新作品的推廣。如果在CoGenT-B上微調的模型在CoGenT-A上仍然表現良好,這表明有能力記住舊的概念組合。這些資料集中的問題比CVQA中的大多數問題都要複雜。
僅使用VQAv1和VQAv2就很難衡量一個算法是否能夠執行健壯的組合推理,或者它是否使用表面相關性來預測答案。在某種程度上,這是由于尋找衆包問題和答案的局限性,人類傾向于針對特定圖像更頻繁地問某些類型的問題,例如,如果場景中有兩個相同類型的東西,并且幾乎從來沒有零答案,則最經常問計數問題。雖然CVQA和VQACPv2試圖克服這些問題,但合成資料集[20,7,22]在更大程度上最小化了這種偏差,并作為衡量特定推理技能的重要試金石,但合成視覺場景缺乏複雜性和可變性。
自然資料集和合成資料集的目的是互補的,合成資料集的建立者認為兩者都應該使用,例如,形狀的建立者,一個早期的VQA資料集,類似于CLEVR,寫道“雖然在這個資料集上的成功絕不是穩健的視覺品質保證的充分條件,但我們認為這是一個必要的條件”[7]。雖然這個建議在很大程度上被社群忽略了,但我們堅信有必要證明VQA算法能夠在自然和合成領域處理VQA問題,隻需稍加修改。否則,算法的泛化能力将無法得到充分評估。
2.2. VQA Algorithms
目前已經提出了許多用于自然圖像VQA的算法,包括貝葉斯方法[23,36],使用空間注意力的方法[52,33,40,6],合成方法[7,8,18],雙線性彙集方案[29,14],以及其他[50,41,26]。
空間注意機制[6,33,38,14,10]是自然語言VQA最廣泛使用的方法之一。注意力計算視覺和文本特征的相關性分數,允許模型隻處理相關資訊。其中,我們評估了UpnN[6],QCG [41]和BAN [28]。我們将在第4節中更詳細地描述這些算法。
類似地,已經為合成VQA資料集建立了許多方法。通常,與自然圖像算法相比,這些算法更強調學習合成性、關系推理和可解釋性。常見的方法包括子產品化網絡,其中一些使用基本事實程式[21,37],另一些隐式學習合成規則[18,19]。其他方法包括使用關系網絡(RNs) [48]、早期融合[34]和條件特征變換[44]。在我們的實驗中,我們評估了RN [48]和MAC [19],這将在第4節中詳細解釋。
雖然存在罕見的例外[18],但這些算法中的大多數僅在自然或合成VQA資料集上進行評估,而不是兩者都進行評估。此外,一些聲稱具有特定能力的算法沒有在為測試這些能力而設計的資料集上進行測試,例如,QCG [41]聲稱具有更好的合成性能,但沒有在CVQA [5]上進行評估。在這裡,我們評估了自然和合成VQA資料集上的多種最先進的算法,并提出了一種适用于兩者的新算法。
3. The RAMEN VQA Model
我們提出了VQA多模嵌入網絡的遞歸聚合模型。它被設計成一個概念上簡單的架構,可以适應自然場景的複雜性,同時也能夠回答需要複雜的組合推理鍊的問題,這些問題發生在像CLEVR這樣的合成資料集上。如圖2所示,RAMEN分三個階段處理視覺和問題特征:
- 視覺和語言特征的早期融合。視覺特征和語言特征之間的早期融合和/或使用語言對視覺特征的早期調節已被證明有助于成分推理[34,44,12]。受這些方法的啟發,我們建議通過将空間定位的視覺特征與問題特征連接配接起來來進行早期融合。
- 通過共享投影學習雙峰嵌入。連接配接的視覺+問題特征通過共享網絡傳遞,産生空間局部化的雙峰嵌入。這個階段幫助網絡學習視覺和文本特征之間的互相關系。
- 學習的雙峰嵌入的循環聚合。我們使用雙向門控遞歸單元(雙向GRU)來聚集場景中的雙峰嵌入,以捕捉雙峰嵌入之間的互動。最後的前向和後向狀态本質上需要保留回答問題所需的所有資訊。
雖然最近最先進的自然圖像VQA模型使用注意[6]或雙線性池機制[28],RAMEN能夠在沒有這些機制的情況下進行比較。同樣,與CLEVR的現有模型相反,RAMEN不使用預定義的子產品[37]或推理單元[19],但我們的實驗證明它能夠進行組合推理。
3.1. Formal Model Definition
RAMEN的輸入是一個嵌入q ∈ R d R^d Rd和一組N個區域建議 r i r_i ri∈ R m R^m Rm的問題,其中每個ri都有視覺外觀特征和空間位置。RAMEN首先将每個建議與問題向量連接配接起來,然後進行批量規範化,即,
其中⊕代表串聯。然後,所有N個向量通過一個函數 F ( c i ) F (c_i) F(ci),該函數混合特征以産生雙峰嵌入 b i = F ( c i ) bi= F (c_i) bi=F(ci),其中 F ( c i ) F (c_i) F(ci)是使用具有剩餘連接配接的多層感覺器(MLP)模組化的。接下來,我們通過連接配接每個雙峰嵌入和原始問題嵌入來執行後期融合,并使用
其中函數A使用bi-GRU模型,函數A的輸出由前向和後向GRUs的最終狀态串聯而成。我們稱a為RAMEN嵌入,然後發送到預測答案的分類層。雖然RAMEN比最近的VQA模型簡單,但我們表明它在資料集之間具有競争力,不像更複雜的模型。
3.2. Implementation Details
Input Representation
我們将問題詞表示為用預先訓練的GloV e向量[43]初始化的300維嵌入,并用GRU處理它們以獲得1024維問題嵌入,即q ∈ R1024。每個區域建議ri∈r 2560由與空間資訊連接配接的視覺特征組成。視覺特征是基于更快的R-CNN [47]的自下而上架構[6]産生的2048維CNN特征。空間資訊是通過将每個建議分成16×16的(x,y)坐标網格來編碼的,然後将其展平以形成512維的向量。
Model Configuration
投影儀F被模組化為一個4層MLP,有1024個單元,具有嗖嗖的非線性激活功能[45]。它在第2層、第3層和第4層有殘餘連接配接。聚合器A是一個單層雙GRU,具有1024維的隐藏狀态,是以前向和後向狀态的連接配接産生了2048維的嵌入。這種嵌入是通過一個2048維的完全連通的swish層來投影的,然後是一個輸出分類層,在資料集中每個可能的答案有一個單元。
Training Details
RAMEN是用Adamax訓練的[30]。在[28]之後,我們對前4個時期使用漸進學習率預熱(2.5∫時期∫104),對時期5至10使用5∫104,然後每2個時期以0.25的速率衰減,使用早期停止。小批量是64。
4. VQA Models Evaluated
在本節中,我們将簡要描述在我們的實驗中評估的模型。
Bottom-Up-Attention and Top-Down (UpDn)[6]
結合自下而上和自上而下的注意力機制來執行VQA,自下而上的機制從更快的R-CNN [47]生成對象建議,自上而下的機制預測這些建議的注意力分布。自上而下的注意力是任務驅動的,使用問題來預測圖像區域上的注意力權重。該模型在2017年VQA研讨會挑戰賽中獲得第一名。為了公平比較,我們将它自下而上的區域特性用于所有其他VQA車型。
Question-Conditioned Graph(QCG) [41]
将圖像表示為圖形,其中來自自下而上區域建議的對象級特征[6]作為圖形節點和邊,對問題制約的區域之間的互動進行編碼。對于每個節點,品質控制圖選擇一個具有最強邊連接配接的節點鄰域,産生一個問題特定的圖結構。該結構由面片算子處理,以執行空間圖形卷積[31]。選擇這個模型背後的主要動機是檢驗所提出的組合推理的圖形表示和操作的有效性。
Bilinear Attention Network (BAN) [28]
通過考慮所有區域建議(視覺通道)與所有問題詞(文本通道)之間的互動,融合了視覺和文本模式。與雙重注意機制[38]不同,BAN處理所有通道之間的互相作用。它可以被認為是聯合表示每個通道對的低秩雙線性彙集方法的推廣[33,29]。BAN通過連接配接的剩餘連接配接支援多次注意。它在VQAv2的測試标準分割上達到70.35%,這是最好的公布結果之一。
Relation Network(RN)[48]
接收每對區域提議,嵌入它們,并對所有N2pair嵌入進行求和,以産生編碼對象之間關系的向量。這種成對的特征聚合機制支援組合推理,正如它在CLEVR資料集上的表現所證明的那樣。然而,RN的計算複雜度随着對象數量的增加而二次增加,使得當對象數量較大時運作成本較高。最近有人試圖通過減少輸入到RN的輸入對象的數量來減少成對比較的數量[35,2]。
Memory, Attention and Composition (MAC)
使用自動學習執行基于注意力的推理的計算細胞。與需要預定義子產品來執行預定義推理功能的子產品化網絡[7,18,8]不同,MAC直接從資料中學習推理機制。每個媒體通路控制單元維護一個表示推理操作的控制狀态和一個作為推理操作結果的存儲狀态。它具有類似計算機的結構,帶有讀、寫和控制單元。在CLEVR資料集上對媒體通路控制進行了評估,并報告了在具有挑戰性的計數和數值比較任務上的顯著改進。
4.1. Standardizing Models
VQA模型通常使用不同于以往模型的視覺特征來實作最先進的性能,這使得很難判斷良好的性能是來自模型改進還是視覺特征表示的改進。為了使跨模型的比較更有意義,我們對所有資料集的所有算法使用相同的視覺特征。具體來說,我們使用2048維的“自下而上”CNN特征,該特征由訓練有素的更快的R-CNN模型[15]的區域建議生成器産生,該模型具有ResNet-101後端。在[49]之後,我們将自然圖像的建議數量固定在36個,盡管當使用額外的建議時,性能可能會提高,例如,其他人報告說,将100個建議與BAN一起使用可以略微提高其性能[28]。這個更快的R-CNN模型是為視覺基因組上的對象定位、屬性識别和包圍盒回歸而訓練的[32]。雖然美國有線電視新聞網的特征地圖在捷克斯洛伐克共和國很常見,但捷克斯洛伐克共和國最先進的方法也在向地區提案轉移[53]。對于使用CLEVR圖像的資料集,我們訓練了一個單獨的快速R-CNN進行多類分類和包圍盒回歸,因為在視覺基因組上訓練的快速R-CNN沒有很好地轉移到CLEVR。為此,我們使用場景注釋中指定的3D坐标/旋轉來估計邊界框。我們将CLEVR區域的數量固定在15個。我們還用一個512維的向量來擴充這些特征,該向量表示關于盒子的位置資訊,如第3.2節所述TDIUC,CLEVR, CLEVR-Humans and CLEVR-CoGenT.。根據[6],我們将候選答案集限制為在訓練+驗證集中出現至少9次的答案,導緻VQAv1的詞彙為2185個答案,VQAv2的詞彙為3129個答案。根據[4,5],我們将答案詞彙表限制為CVQA和VQACPv2的1000個最常見的訓練集答案。對于VQAv2,我們在訓練和驗證分割上訓練模型,并在testdev分割上報告結果。對于剩餘的資料集,我們對模型的訓練分割進行訓練,并報告驗證分割的性能。
Maintaining Compatibility. UpDn、QCG和BAN都是根據地區提案運作的。對于媒體通路控制和注冊網絡,我們需要修改輸入層來接受自底向上的特征,而不是卷積特征映射。這樣做是為了在所有資料集上使用相同的特征,也是為了更新RN和MAC,使它們在通常使用這些特征的自然圖像資料集上具有競争力[6]。對于媒體通路控制,我們用自下而上特征的線性投影代替初始2D卷積運算。這些是通過MAC的讀取單元饋送的,該單元保持不變。對于RN,我們移除初始卷積網絡,并以問題嵌入作為輸入直接連接配接自下而上的特征。在這些變化之後,兩種模型的性能與使用學習的卷積特征映射作為輸入的版本相當,在CLEVR驗證集上,MAC達到98%,RN達到95.97%。
5. Experiments and Results
5.1. Main Results
在這一節中,我們展示了目前VQA算法無法在自然和合成資料集上進行推廣,并展示了RAMEN在所有資料集上與性能最好的模型競争。我們還對所有六種算法的抗偏性、組成性和泛化能力進行了比較分析。表2提供了我們在所有八個資料集上所有六種算法的主要結果。我們對所有資料集使用标準度量,即,我們對CLEVR系列資料集使用簡單精度,對TDIUC使用每類型平均值,對VQAv1、VQAv2、CVQA和VQACPv2使用“10-choose-3”。與其他模型相比,RAMEN的一些輸出示例如圖3所示。
Generalization Across VQA Datasets.
RAMEN在TDIUC和CVQA上取得了最高的結果,并且是VQAv1、VQAv2、VQACPv2和所有CLEVR資料集的第二好模型。平均而言,它在所有資料集上得分最高,表明它可以在測試推理的自然資料集和合成資料集上進行歸納。BAN獲得了第二高的平均分數。BAN在自然圖像資料集上運作良好,在VQAv1、VQAv2和VQACPv2上優于其他模型。然而,BAN表現出有限的組合推理能力。盡管在概念上比BAN簡單得多,但RAMEN在CLEVR上的表現優于BAN 6%(絕對),在CLEVR-CoGenT-B上的表現優于BAN 10%。在所有的組合推理測試中,RAMEN都在MAC的1.4%以内。UpDn和QCG在CLEVR上表現不佳,QCG的得分低于50%。
Generalization Across Question Types.
我們使用TDIUC來研究跨問題類型的概括。TDIUC有多個準确性名額,每種類型的均值(MPT)和歸一化每種類型的均值(MPT)補償偏差。如表3所示,所有方法的簡單準确率都達到82%以上;然而,MPT和聯考分數都低了13-20%。較低的MPT分數表明,所有算法都在努力推廣到多個任務。拉面的MPT評分最高,為72.52%,其次是BAN,為71.10%。對于所有的算法,“物體存在”、“物體識别”和“場景識别”都是最簡單的任務,所有的方法都達到了84%以上的準确率;然而,這些任務都有相對大量的訓練資料(每個60K - 657K品質保證對)。所有這些方法在“運動識别”(31K個品質保證對)上表現良好,達到93%以上,但在概念相似的“活動識别”(8.5K個品質保證對)任務上表現不佳,達到62%以下的準确率。這表明不能用更少的例子概括問題類型。為了強調這一點,TDIUC提供了歸一化MPT (N-MPT)度量,通過考慮回答頻率來衡量對罕見答案的概括。标準化和非标準化分數之間的差異在所有模型中都很大。拉面的差距最小,表明對回答分布偏差有更好的抵抗力,而BAN的差距最大。
Generalization to Novel Concept Compositions.
我們使用CVQA和CLEVR-CoGenT-B來評估概念的組成性。如表2所示,CVQA的分數低于VQAv1,這表明所有的算法在以新的方式組合概念時都會遇到困難。媒體通路控制的性能下降最大,這表明它的推理單元不能有效地組合現實世界的視覺語言概念。
為了評估在合成資料集上歸納新概念組合的能力,我們在CLEVR-CoGenT-A的訓練分割上訓練模型,并在沒有微調的情況下在驗證集上進行評估。根據[44],我們從驗證集“B”中獲得一個測試分割,并報告沒有對“B”進行微調的性能。所有算法都顯示性能大幅下降。與CVQA結果不同,MAC的性能下降幅度較小。同樣,RAMEN的性能下降相對較小。VQACPv2的更改優先級性能。在不斷變化的優先級下,所有算法的性能都會大幅下降。這表明,要讓VQA算法克服語言和視覺上的先驗知識,讓它們能夠更有效地學習使用可推廣的概念,還有很多工作要做。
Counting and Numerical Comparisons.
對于CLEVR,計數和數字比較(“等整數”、“大于”和“小于”)是跨算法的最具挑戰性的任務,如表4所示。MAC在這些任務上表現最好,其次是RAMEN。除了MAC和QCG之外,其他算法在“小于”和“大于”問題類型之間存在很大的(> 4.8%)差異,這需要類似的推理。這種差異在注冊護士中最為明顯(9.13%),表明在語言了解方面存在困難。BAN使用計數子產品[54];然而,它在CLEVR計數任務上的表現仍然比MAC低9%。所有的算法在自然圖像中也很難計數。盡管TDIUC有超過164K的計數問題,但所有方法在這些問題上的得分都低于62%。
Other CLEVR Tasks
其他CLEVR任務。如表4所示,除了數字比較,RAMEN在所有任務上的性能都在MAC的0.03-1.5%以内。UpDn和QCG是所有查詢類型中性能最差的模型。除了QCG,所有的模型都很容易回答關于物體屬性和存在的問題。除了UpDn和QCG之外的模型在需要比較這些屬性的屬性比較問題上表現良好。令人驚訝的是,BAN發現需要更多推理的屬性比較比更簡單的屬性查詢任務更容易。我們展示了在沒有微調的情況下CLEVR-人類的結果,以檢查如果他們隻在CLEVR的詞彙上訓練,算法和自由形式語言的效果如何。BAN表現出最好的概括,其次是RAMEN和RN。
5.2. Ablation Studies
表5給出了多項消融研究的結果,以測試RAMEN元件的貢獻。我們發現早期融合對RAMEN的性能至關重要,消除它會導緻CLEVR的絕對精度下降近20%,VQAv2的絕對精度下降4%。切除晚期融合對CLEVR和VQAv2影響不大。與使用平均池相比,我們還探索了使用雙GRU進行聚合的效用,并發現這導緻了兩個資料集的性能下降。我們認為,重複聚合有助于捕捉雙峰嵌入之間的互相作用,這對推理任務至關重要,并且它還通過執行一種非最大抑制的形式來幫助移除重複的提議。
5.3. Newer Models
自從我們開始這個項目以來,已經釋出了額外的VQA算法,一些算法已經取得了比我們在一些資料集上評估的模型更高的分數。透明設計(TBD)網絡[37]通過使用地面真實函數程式來訓練網絡,在CLEVR上獲得99.10%的準确性,這對于自然VQA資料集是不可用的。神經-符号VQA (NS-VQA) [53]在CLEVR上的得分為99.80%,但使用問題解析器來配置設定功能子產品以及高度專業化的基于分段的CNN功能。他們沒有進行消融研究來确定使用這些視覺特征的影響。我們比較的模型都無法通路這些額外的資源。通過使用來自其他VQA資料集的額外資料和集合,可以顯著改善VQAv2的結果,例如,2018年挑戰賽的獲勝者使用來自可視化對話[11]的對話作為額外的問題答案對和30個模型的集合。這些擴充可以應用于我們評估的任何模型,以提高性能。VQACPv2結果也可以使用專門的體系結構來改進,例如GVQA [4]和帶有對立正則化的UPdn[46]。然而,它們在VQACPv2上的性能仍然很差,具有對抗性正則化的UpDn獲得了42.04%的精度,顯示出僅比非正則化模型提高了2.98%。
6. Discussion: One Model to Rule them All?
我們進行了第一次系統研究,以檢查在合成資料集上工作的VQA系統是否推廣到真實世界的資料集,反之亦然。這是我們項目的最初範圍,但是當我們發現沒有一種方法在資料集上運作良好時,我們感到震驚。這促使我們創造了一種新的算法。盡管比許多算法簡單,RAMEN可以與其他方法競争甚至超越。我們認為,一些最先進的架構可能被過度設計,以利用他們最初測試的領域中的偏差,導緻在其他資料集上測試時性能下降。這讓我們不禁要問,在一個特定的資料集上使用高度專業化的機制來獲得最先進的結果,是否會導緻該領域的重大進展,因為我們在概念上更簡單的算法在沒有這種機制的情況下,在自然和合成資料集上都具有競争力。我們主張開發一種單一的VQA模式,能夠很好地應對各種挑戰。在持續學習範例中訓練這個模型将會評估向前和向後的轉移[17,27,42]。另一個有趣的途徑是将VQA與相關任務相結合,如視覺查詢檢測[1]。無論如何,現有的算法,包括我們的算法,在展示視覺語言概念了解和推理方面還有很長的路要走。CVQA和VQACPv2的性能大幅下降證明,目前的算法在學習組合概念方面表現不佳,并且受到這些資料集偏差的影響,這表明依賴于表面相關性。我們觀察到,專門為合成封閉世界場景開發的方法通常無法處理不受限制的自然圖像和問題。盡管VQAv2和CLEVR的性能在這些基準上接近人類水準,但我們的結果顯示VQA問題遠未解決。我們認為,未來的工作應該集中在建立一個跨領域良好工作的模型上。在通用訓練集上訓練資料集,然後在多個測試集上評估它,每個測試集需要不同的技能集,這将是很有趣的。這樣做将有助于尋找一個可以統治所有人的VQA模式。
7. Conclusion
我們的工作緻力于為VQA算法設定一個新的标準:在自然場景和具有挑戰性的合成基準上都有良好的性能。我們希望我們的工作将導緻VQA未來的進步。