天天看點

Answer Them All! Toward Universal Visual Question Answering Models 通用VQA模型

Answer Them All! Toward Universal Visual Question Answering Models出自美國羅切斯特理工學院的Christopher Kanan組。

文章目錄

      • Abstract
      • Introduction

Abstract

VQA的研究現狀分兩個陣營:

  1. 專注于需要現實圖像了解的VQA資料集;
  2. 專注于檢驗推理能力的合成資料集。

按理說,一個好的VQA模型要能夠在這兩種情況下都表現很好,具備良好的泛化能力。但實際上,經過本文的實驗對比,所有的方法都無法在領域之間做到泛化。

本文提出一種新的VQA算法,能夠匹敵甚至超過這兩個領域的最優方法。

Introduction

  1. 正确回答VQA的問題需要大量的能力:物體定位(Object location),屬性檢測(Attribute Detection),行為分類(Activity Classification),場景了解(Scene understanding),推理(reasoning),counting(計數)。

繼續閱讀