Answer Them All! Toward Universal Visual Question Answering Models 通用VQA模型

2023-06-25 08:25:54

Answer Them All! Toward Universal Visual Question Answering Models出自美國羅切斯特理工學院的Christopher Kanan組。

VQA的研究現狀分兩個陣營：

按理說，一個好的VQA模型要能夠在這兩種情況下都表現很好，具備良好的泛化能力。但實際上，經過本文的實驗對比，所有的方法都無法在領域之間做到泛化。

本文提出一種新的VQA算法，能夠匹敵甚至超過這兩個領域的最優方法。

正确回答VQA的問題需要大量的能力：物體定位(Object location)，屬性檢測(Attribute Detection)，行為分類(Activity Classification)，場景了解(Scene understanding)，推理(reasoning)，counting(計數)。

繼續閱讀