天天看点

ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答

ReGAT-关系感知图形注意网络用于视觉问答

为了充分理解图像中的视觉场景,特别是不同对象之间的交互,我们提出一个关系感知图注意网络:它将每幅图片编码成一个图,并通过图注意机制建立多类型的对象间关系模型,以学习问题自适应关系表示,同时探讨了两种视觉对象关系:(1)表示对象之间几何位置和语义交互的显示关系。(2)捕捉图像区域之间隐藏动态的隐式关系。

1. 引言

VQA任务是训练一个能够对多模态输入士想全面和语义对齐的理解的模型,也即是给定一个图像和一个自然语言描述的问题,任务将图像的视觉特征和语义联系起来,从而正确回答问题。

目前最新的技术,就是利用RCNN提取的图像区域的稀疏集和利用RNN的问题编码,再利用多模态融合来学习表示每个单独区域与问题之间的比对的联合表示,再将这个联合表示送入到一个答案预测器中以产生一个答案。

但是存在的问题:

图像和自然语言之间存在语义鸿沟,例如一组斑马图像,模型可以识别斑马的黑白色,但是不能识别哪个像素来自哪个斑马???而且要回答诸如最右边的斑马是幼年?斑马在吃草吗?等问题,VQA不仅要识别物体(斑马)和周围环境(草)还需要识别图像和问题关于动作(吃,躺,玩)、以及位置(上下左右)的语义

解决方向:

①检测邻近物体的相对几何位置,与问题中的空间描述对齐。

②学习物体之间的语义依赖,来捕捉视觉场景中的交互动态。

为此,我们提出了关系编码器,可以捕获静态对象或区域之外的对象间关系,此关系编码器学习了显性关系(空间/位置,语义/可操作)和隐性关系,其中图像用图表示,通过图注意机制来捕获对象之间的交互。

注意:图注意是基于问题的上下文来学习的,允许语义信息从问题注入到关系编码阶段。这样以来,关系编码器学习到的特征,不仅捕获图像中对象之间的交互内容还包括问题中语义线索。

我们的贡献:

①:提出关系编码器,通过图注意网络学习视觉对象之间的显示或隐式关系。

②:学习的关系关于问题是自适应的,就是可以动态捕获与每个问题最相关的图像对象关系。

③:在VQA2.0上取得最先进的性能。

案例1:图一案例步骤大致如下:

①图像特征提取:使用RCNN提取一组目标区域建议。

②问题编码:使用问题编码器进行问题嵌入。

③关系编码器:将每个区域的卷积和边界框特征注入到编码器中。以从图像中学习关系感知,问题自适应,区域级别的表示。

④模态融合:将学习到的关系感知和问题编码嵌入送到多模态融合模型中生成一个联合表示

⑤答案预测:将联合表示送入到答案预测器中,生成答案。

ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答

2. 相关工作

此处略

3.关系感知图注意网络

一个VQA任务可由如下公式定义:给定图像I和问题q,目标预测a,这是一个分类问题

下图:是我们的模型详细说明,该模型由图像编码器,问题编码器,关系编码器组成。

图像编码器:包含视觉特征向量 { v i } i = 1 K , v i ∈ R d v \{v_i\}^K_{i=1} , v_i \in R^{d_v} {vi​}i=1K​,vi​∈Rdv​, 边界框特征向量 b i ∈ R d b b_i \in R^{d_b} bi​∈Rdb​(K=36,dv=2048,db=4), b i = [ x , y , w , h ] ( x , y ) b_i =[x,y,w,h](x,y) bi​=[x,y,w,h](x,y)是边界框左上方位置,w是宽,h是高

问题编码器:使用带有门控递归单元(GRU)的双向RNN,并对RNN的隐藏状态的顺序进行自我注意,来生成问题嵌入。( q ∈ R d q , d q = 1024 维 在 我 们 实 验 中 q \in R^{d_q} ,d_q=1024维在我们实验中 q∈Rdq​,dq​=1024维在我们实验中)

ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答

3.1 图构建

  • 完全连接关系图:将图像中的每个对象 v i v_i vi​视为一个顶点,构建完全连接的无向图 G i m p = ( V , E ) Gimp=(V,E) Gimp=(V,E)其中E是K(K-1)个边的集合。每个边代表两个对象间的隐式关系,这可以通过图注意力学习后分配给每个边的权重来反应。无需先验知识,即可隐式学习所有权重,将此命名为 G i m p Gimp Gimp,隐式(implicit)关系编码
    ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答
  • 基于先验知识的图修剪:如果将顶点之间不存在显示关系的边来删除掉,就可以将隐式关系图转换成显式关系图。对于每队对象 < i − p − j > <i-p-j> <i−p−j>是有效关系,则从i->j建一条边,并带有边标签p,此外还为i分配一个自环边,将该边标记为identical。通过这种方法,图变得稀疏,并且每个边都编码有关图像中一个对象间关系的先验知识。称此为显式(explicit)关系编码器。
    ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答
    注:这些显式特征需要经过预训练的分类器以离散类标签的行式提取关系。本文基于此修剪图探讨了:空间图和语义图,以捕获对象之间的位置关系和动作关系,这在任务中必不可少的。
  • 空间图:让 s p a i , j = < o b j e c t i − p r e d i c a t e − o b j e c t j > spa_{i,j} = <object_i - predicate - object_j> spai,j​=<objecti​−predicate−objectj​>表示 o b j e c t i object_i objecti​相对于 o b j e c t j object_j objectj​的几何位置的空间关系。为了构造空间图 G s p a Gspa Gspa,在给定两个对象区域建议 o b j e c t i object_i objecti​和 o b j e c t j object_j objectj​的情况下,将 s p a i , j spa_{i,j} spai,j​分为11个不同的类别(例如,对象i在j内,j在i内,等)如图。
    ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答
    注意:由空间关系形成的边是对称的,如果<objecti-pi,j-objectj >是一个有效的空间关系,则必须存在一个有效的空间关系spaj,i =<objectj-pj,i-objecti >。但是,pi j和pj i这两个谓词是不同的
  • 语义图:为了构造语义图需要提取对象之间的语义关系(如< subject - predicate - object>)。这可以通过在视觉关系数据集上训练语义关系分类器来表述为分类任务。

    给定两个对象区域i和j,目标是确定哪个谓词p表示这两个区域之间的语义关系< i-p-j >。这里,主语j和宾语i之间的关系是不可互换的,意思是语义关系所形成的边缘是不对称的。对于一个有效的<i-pi,j-j>,可能不存在关系<j-pj.i-i>。例如< man-holding-bat >是一个有效的关系,但bat与man之间不存在语义上的关系。

    具体分类模型步骤如下:

    ①需要在三个输入:subject的区域特征向量vi,和object的区域特征向量vj,以及包含i和j的联合边界框的区域级别特征向量 v i , j v_{i,j} vi,j​。这三种类型的特性从预训练对象检测模型中得到的,

    ②然后通过嵌入转换层将嵌入的特征进行连接,并送入分类层,生成超过14个语义关系的softmax概率,并附加一个无关系类。

    ③然后使用训练好的分类器来预测给定图像中任意一对目标区域之间的关系。语义关系的例子如图3(b)所示:

    ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答

3.2 关系编码

  • Question-adaptive问题自适应图的注意:关系编码器是对图像中对象之间的关系进行编码。对于VQA任务,可能存在对不同问题类型有用的不同类型的关系。因此,在设计关系编码器时,我们使用问题自适应注意机制,从问题中注入语义信息到关系图中,动态地赋予与每个问题最相关的关系较高的权值。首先将问题嵌入q与K个视觉特征vi连接起来,表示
    ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答
ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答

这里 N i N_i Ni​表示对象i的邻居:

ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答

为了使注意力机制稳定,我们采用多头注意力:

ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答

最后, v i ∗ v^*_i vi∗​ 被添加到原始的视觉特征vi中,作为最终的关系感知特征

  • 隐式关系:
    ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答
    然后通过计算不同波长的余弦和正弦函数将其嵌入到一个dh维特征中w ∈ Rdh,将dh维特征转换为标量权值,在0处被进一步裁剪,与我们在显式关系设置中假设彼此距离太远的对象没有关系不同,隐式关系的限制是通过w和零修剪操作学习的
  • 显式关系:我们首先考虑语义关系编码器。由于语义图Esem中的边包含标签信息并且是有方向性的,因此我们在(3)中设计了对两种方向性都敏感的注意机制(vi->vj,vj->vi,vi->vi)和标签,具体如下:
    ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答
    与图卷积网络不同,该图注意机制有效地为相同邻域的节点分配不同的重要度。结合问题自适应机制,习得的注意权值可以反映哪些关系与特定问题相关。

3.3 多模式融合和答案预测

  • 多模态融合

    通过关系网络获得的关系感知的视觉特征 v ∗ v^* v∗之后,将其与问题信息特征q通过多模型融合策略进行融合,学习联合表示J.

    ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答
    f是一个多模式融合方法和Θ可学习的融合模块的参数。
  • 答案预测

    对于答案预测器,我们采用一个双层多层感知器(MLP)作为分类器,以联合表示J作为输入。损失函数采用二元交叉熵,在训练阶段,对不同关系的编码器进行独立训练。在推理阶段,我们将三图注意网络与预测答案分布的加权和相结合。具体来说,最终答案分布由如下公式给出:

    ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答
    这里的α和β是权衡hyper-parameters,(0≤α+β≤1,0≤α,β≤1).Prsem(a=ai),Prspa(a=ai),Primp (a=ai)表示答案ai的预测概率,分别从语义关系、空间关系和隐式关系训练的模型中得到。

4.实验

ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答
ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答

5.可视化

ReGAT-关系感知图形注意网络用于视觉问答ReGAT-关系感知图形注意网络用于视觉问答

6. 总结

我们提出了一种新型的视觉问题回答框架——关系感知图注意网络(ReGAT),利用问题适应注意机制对多类型对象关系进行建模。ReGAT利用两种类型的视觉对象关系:显式关系和隐式关系,通过图注意学习关系感知区域表示。我们的方法在VQA 2.0和VQA- cp v2数据集上都取得了最新的结果。提出的ReGAT模型与通用的VQA模型兼容。在两个VQA数据集上的综合实验表明,我们的模型可以以即插即用的方式注入到最先进的VQA体系结构中。在以后的工作中,我们将研究如何更有效地融合这三种关系,以及如何利用每种关系来解决特定类型的问题。

继续阅读