天天看点

CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记简介动机贡献方法实验

目录

  • 简介
  • 动机
  • 贡献
  • 方法
  • 实验

简介

本文是CVPR2020的一篇oral文章,指导教师是中山大学的李冠斌教授。

下载链接

动机

方法的动机: 分析RE(Referring Expression)的语言结构是至关重要的,因为这些结构信息为视觉内容提供了推理的布局。但是,现有工作忽略了语言结构信息,学习RE与视觉内容的整体匹配分数,或是忽视语法信息,通过self-attention分析语言结构。

数据集的动机: ①. 现有数据集存在dataset biases;②. 数据的level分布不平衡,简单的数据较多(eg:红色衣服、长头发的人;蓝色的卡车),困难数据较少(eg:在蓝色卡车后面的红色衣服、长头发的人);③. 数据集的metric只基于最终的预测结果,忽略了中间的推理过程;④. 针对③有人提出了Clevr-ref+数据集,但是这个数据集是合成数据集,过于简单,缺乏真实世界中的场景信息。

贡献

  1. 提出SGMN (scene graph guided modular network)
  2. 提出一个大规模的、real-world数据集——Ref-Reasoning
  3. 在新数据集和以前大家常用的数据集上,都超过了SOTA

方法

本文方法的整体框架如图所示,共分为三个步骤:①. 将RE和Image分别建模为Graph;②. 计算inference order;③. 基于inference order进行reasoning,下面一一进行介绍。

CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记简介动机贡献方法实验

①. Scene Graph Representations。对于Image,每个object视为一个node,每个node的特征包括两方面:visual feature + spatial feature。edge通过考虑两个node的spatial feature和入点的visual feature来确定。对于RE,用一个现成的场景图解析方法(2015年的一个方法)对其进行解析。

②. Design Inference Order。 在RE生成的场景图上,将出度为零的node视为referent node,将场景图上的所有边反向,以referent node为初始点,进行BFS,按照BFS过程中节点的访问顺序,将它们依次入栈(初始时栈为空)。最终,栈中节点的出栈顺序,即为Inference Order(其实就是将BFS的顺序反序)。

③. Reasoning。 根据Inference Order,每次从栈中拿出一个node,node分为两种:叶子节点(入度为零)、中间节点。对于叶子结点,首先,基于self-attention弄一下;然后,将初始feature输入AttendNode neural module,在Image Scene Graph上计算attention;最后,将两个attention map结合(后面还有个Norm模块)。对于中间节点,它必有一个入边(也可能是多个),基于Image Scene Graph计算每个边的attention,然后将这些attention maps进行transfer,再combine即可。

  • 文本和视觉的“关联”过程为:

    对于给定的文本图的结点特征,分别结合视觉图上的每个结点特征,经过MLP和L2Norm,计算出结点attention map。

  • 推理过程中的信息传递过程为:

    对于给定文本图上的结点,首先,可得到文本图上的所有关联的边特征,然后,结合视觉图上的边特征,计算出视觉图中每条边的attention weight。分别基于每条边的attention weight和对应的结点attention map,进行transfer,得到每个结点的新attention map。将相关的新结点attention map累加,得到当前结点的attention map。

关于数据集的构造过程,这里不赘述了,感兴趣的朋友可以去看看原文。

实验

在新提出的Ref-Reasoning数据集上的实验结果:

CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记简介动机贡献方法实验

在Ref-Reasoning数据集上的消融实验:

CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记简介动机贡献方法实验

在一些common数据集上的实验结果:

CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记简介动机贡献方法实验

可视化结果:

CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记简介动机贡献方法实验

继续阅读