Answer Them All! Toward Universal Visual Question Answering Models出自美國羅切斯特理工學院的Christopher Kanan組。
文章目錄
-
-
- Abstract
- Introduction
-
Abstract
VQA的研究現狀分兩個陣營:
- 專注于需要現實圖像了解的VQA資料集;
- 專注于檢驗推理能力的合成資料集。
按理說,一個好的VQA模型要能夠在這兩種情況下都表現很好,具備良好的泛化能力。但實際上,經過本文的實驗對比,所有的方法都無法在領域之間做到泛化。
本文提出一種新的VQA算法,能夠匹敵甚至超過這兩個領域的最優方法。
Introduction
- 正确回答VQA的問題需要大量的能力:物體定位(Object location),屬性檢測(Attribute Detection),行為分類(Activity Classification),場景了解(Scene understanding),推理(reasoning),counting(計數)。