天天看点

CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记简介动机贡献方法实验

目录

  • 简介
  • 动机
  • 贡献
  • 方法
  • 实验

简介

本文是在NIPS 2019 ViLBERT上的拓展。

论文链接

动机

本文修改了ViLBERT的预训练过程,有两个小修改:1. 对regions进行mask时,将IoU大于0.4的regions也mask掉,避免视觉信息泄漏;2. 在多模态对齐的负样本采样时,不强制masked multi-modal modelling loss,这样可以有效地降低负样本带来的噪声。

贡献

  1. 提出Clean V&L Multi-Task setup,可以在多任务训练过程中,确保没有任务泄漏;
  2. 提出多任务训练模型,在12个V&L数据集上同时训练,在四个任务上进行了验证:Vocab-based VQA、Image Retrieval、Referring Expressions和Multi-modal Verification。

方法

本文没给框架图,下图出自NIPS 2019 ViLBERT。

CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记简介动机贡献方法实验

多任务学习的过程:

CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记简介动机贡献方法实验

实验

下图是实验结果,row1-2是single-task training,row3-5是multi-task training,row6-9是task-specific fine-tuning。

CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记简介动机贡献方法实验

在多个任务上和SOTA的对比:

CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记简介动机贡献方法实验

继续阅读