CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记简介动机贡献方法实验

2023-06-27 06:58:42

简介

本文是在NIPS 2019 ViLBERT上的拓展。

论文链接

动机

本文修改了ViLBERT的预训练过程，有两个小修改：1. 对regions进行mask时，将IoU大于0.4的regions也mask掉，避免视觉信息泄漏；2. 在多模态对齐的负样本采样时，不强制masked multi-modal modelling loss，这样可以有效地降低负样本带来的噪声。

贡献

提出Clean V&L Multi-Task setup，可以在多任务训练过程中，确保没有任务泄漏；
提出多任务训练模型，在12个V&L数据集上同时训练，在四个任务上进行了验证：Vocab-based VQA、Image Retrieval、Referring Expressions和Multi-modal Verification。

方法

本文没给框架图，下图出自NIPS 2019 ViLBERT。

CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记简介动机贡献方法实验

多任务学习的过程：

CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记简介动机贡献方法实验

实验

下图是实验结果，row1-2是single-task training，row3-5是multi-task training，row6-9是task-specific fine-tuning。

CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记简介动机贡献方法实验

在多个任务上和SOTA的对比：

CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记简介动机贡献方法实验

CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记简介动机贡献方法实验

目录

简介

动机

贡献

方法

实验

继续阅读

CVPR2020_Improved Few-Shot Visual Classification

[CVPR2020论文(目标跟踪方向)]Probabilistic Regression for Visual Tracking（PrDiMP）

CVPR 2020 《Context-Aware Group Captioning via Self-Attention and Contrastive Features》论文笔记（数据集）简介动机贡献方法实验

ICCV 2019 运行LCGN遇到的问题及解决办法文章简介Issues

AAAI 2021 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记简介动机方法实验

「2」「======」cvpr2020论文学习

【CVPR2020】人脸识别：Face X-ray/SCN

CVPR2020|行人检测与重识算法推荐论文源码大盘点

CVPR2020超分辨方向文章总结（中）

CVPR2020超分辨方向文章总结（上）

Video Question Answering综述引言选择型视频问答开放型视频问答选择型、开放型均可的视频问答结论参考文献

CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记简介动机贡献方法实验