简介

本文是CVPR2020的一篇oral文章，指导教师是中山大学的李冠斌教授。

下载链接

动机

方法的动机：分析RE（Referring Expression）的语言结构是至关重要的，因为这些结构信息为视觉内容提供了推理的布局。但是，现有工作忽略了语言结构信息，学习RE与视觉内容的整体匹配分数，或是忽视语法信息，通过self-attention分析语言结构。

数据集的动机： ①. 现有数据集存在dataset biases；②. 数据的level分布不平衡，简单的数据较多（eg：红色衣服、长头发的人；蓝色的卡车），困难数据较少（eg：在蓝色卡车后面的红色衣服、长头发的人）；③. 数据集的metric只基于最终的预测结果，忽略了中间的推理过程；④. 针对③有人提出了Clevr-ref+数据集，但是这个数据集是合成数据集，过于简单，缺乏真实世界中的场景信息。

贡献

提出SGMN (scene graph guided modular network)
提出一个大规模的、real-world数据集——Ref-Reasoning
在新数据集和以前大家常用的数据集上，都超过了SOTA

方法

本文方法的整体框架如图所示，共分为三个步骤：①. 将RE和Image分别建模为Graph；②. 计算inference order；③. 基于inference order进行reasoning，下面一一进行介绍。

CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记简介动机贡献方法实验

①. Scene Graph Representations。对于Image，每个object视为一个node，每个node的特征包括两方面：visual feature + spatial feature。edge通过考虑两个node的spatial feature和入点的visual feature来确定。对于RE，用一个现成的场景图解析方法（2015年的一个方法）对其进行解析。

②. Design Inference Order。在RE生成的场景图上，将出度为零的node视为referent node，将场景图上的所有边反向，以referent node为初始点，进行BFS，按照BFS过程中节点的访问顺序，将它们依次入栈（初始时栈为空）。最终，栈中节点的出栈顺序，即为Inference Order（其实就是将BFS的顺序反序）。

③. Reasoning。根据Inference Order，每次从栈中拿出一个node，node分为两种：叶子节点（入度为零）、中间节点。对于叶子结点，首先，基于self-attention弄一下；然后，将初始feature输入AttendNode neural module，在Image Scene Graph上计算attention；最后，将两个attention map结合（后面还有个Norm模块）。对于中间节点，它必有一个入边（也可能是多个），基于Image Scene Graph计算每个边的attention，然后将这些attention maps进行transfer，再combine即可。

文本和视觉的“关联”过程为：

对于给定的文本图的结点特征，分别结合视觉图上的每个结点特征，经过MLP和L2Norm，计算出结点attention map。
推理过程中的信息传递过程为：

对于给定文本图上的结点，首先，可得到文本图上的所有关联的边特征，然后，结合视觉图上的边特征，计算出视觉图中每条边的attention weight。分别基于每条边的attention weight和对应的结点attention map，进行transfer，得到每个结点的新attention map。将相关的新结点attention map累加，得到当前结点的attention map。

关于数据集的构造过程，这里不赘述了，感兴趣的朋友可以去看看原文。

实验

在新提出的Ref-Reasoning数据集上的实验结果：

CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记简介动机贡献方法实验

在Ref-Reasoning数据集上的消融实验：

CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记简介动机贡献方法实验

在一些common数据集上的实验结果：

CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记简介动机贡献方法实验

可视化结果：

CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记简介动机贡献方法实验

CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记简介动机贡献方法实验

目录

简介

动机

贡献

方法

实验

继续阅读

CVPR2020_Improved Few-Shot Visual Classification

[CVPR2020论文(目标跟踪方向)]Probabilistic Regression for Visual Tracking（PrDiMP）

CVPR 2020 《Context-Aware Group Captioning via Self-Attention and Contrastive Features》论文笔记（数据集）简介动机贡献方法实验

ICCV 2019 运行LCGN遇到的问题及解决办法文章简介Issues

AAAI 2021 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记简介动机方法实验

「2」「======」cvpr2020论文学习

【CVPR2020】人脸识别：Face X-ray/SCN

CVPR2020|行人检测与重识算法推荐论文源码大盘点

CVPR2020超分辨方向文章总结（中）

CVPR2020超分辨方向文章总结（上）

Video Question Answering综述引言选择型视频问答开放型视频问答选择型、开放型均可的视频问答结论参考文献

CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记简介动机贡献方法实验