引言

视频问答是视觉语言领域较为新兴的一个课题，需要根据视频内容和问题进行分析，得出问题的答案。根据回答形式，可分为：一、选择型视频问答；二、开放型视频问答。根据方法的提出时间，可以构建出如下时间线：

2014 MM JVTP-UEAQ[1]
2015 arXiv GRU[2]
2016 CVPR MovieQA[3]
2017 CVPR MovieFIB[4]
2017 CVPR TGIF-QA[5]
2017 AAAI E4M[6]
2017 IJCAI r-STAN[7]
2017 ACMMM AMU[8]
2017 ACMMM DLAN[9]
2017 SIGIR ANL[10]
2018 CVPR Co-memory[11]
2018 ACMMM SVQA[12]
2018 EMNLP TVQA[13]
2019 AAAI PSAC[14]
2019 AAAI STA[15]
2019 CVPR HMEMAM[16]
2019 CVPR PAMN[17]
2019 IJCAI HCSA[18]
2019 IJCNN MTL[19]
2019 ACMMM LAD-Net[20]
2019 ACMMM Multi-interaction Network[21]
2019 ACMMM TSN[22]
2019 TIP CAN[23]
2019 TIP HMMN[24]
2020 ECCV ROLL[25]
2020 TIP VQA-HMAL[26]
2020 WACV BERTVideoQA[27]

下面，对上述提到的方法按照其所属类别，依次进行介绍。

选择型视频问答

Video Question Answering综述引言选择型视频问答开放型视频问答选择型、开放型均可的视频问答结论参考文献

图1 选择型视频问答[13]

图1是选择型视频问答的一个简单示例，这类视频问答会提供用于回答问题的几个备选答案，模型需要从备选答案中选出正确答案。

2015年，Zhu等人[2]构建了一个具有390744个填空问题的视频问答数据集，这些问题是基于其他手动创建的Video Caption数据集自动生成的。并提出了一种编码-解码的方法来回答视频中的多项选择题。2016年，Tapaswi等人[3]提出一个使用与电影相关的视频和文本资源的、基于故事理解的问答数据集MovieQA。它由408部字幕电影组成，这些电影摘要来自维基百科，剧本来自互联网电影脚本数据库 (IMSDb)。此数据集共有14944个问题，并且问题的回答很大程度上依赖于电影片段所提供的文本信息，主要侧重于对故事的理解。2018年，Lei等人[13]提出TVQA数据集，合并了已有视频问答数据集中的高质量数据，并主要关注多模态组合性。TVQA数据集包括和21793个视频片段相关的152545个QA pair，总视频时长超过460小时。2019年，Kim等人[19]通过使用多任务学习在视频问答任务中引入额外的监督信息，并结合课程学习提出了多任务比率调节方法，先学习较为容易的任务。同年，Yang等人[22]提出使用MIX模块同时联合外观和运动表示，实现了细粒度的时间对齐与外观和运动的对应，并通过SWITCH模块在每个推理步骤中，自适应地选择外观和运动信息进行指导。同年，Wang等人[24]提出整体多模态记忆网络，充分考虑不同模态（多模态上下文、问题、答案选项）之间的相互作用，以达到信息的合理利用。2020年，Garcia等人[25]提出了一种基于视频场景图生成视频描述的无监督视频表示方法，将视频场景的具体细节和弱监督的外部知识结合起来，更加深入的理解视频故事。同一年，Yang等人[27]在视频问答中引入了BERT模型，将视觉概念和字幕分别和问题、候选答案联合，再基于预训练的BERT模型分别进行处理。

开放型视频问答

Video Question Answering综述引言选择型视频问答开放型视频问答选择型、开放型均可的视频问答结论参考文献

图2 开放型视频问答[5]

图2是开放型视频问答的一个简单示例，这类视频问答不会提供备选答案，需要模型自行生成问题的答案。

2014年，Tu等人[1]基于文本和视频的联合解析图构建了一个查询回答系统[1]，但是在当时没有引起广泛关注。2017年，Maharaj等人[4]提出了第一个开放型视频问答数据集MovieFIB，具有有超过30万个数据样本。和MovieFIB同一年，Zeng等人[6]不依赖手工构建了一个视频问答数据集，并使用自步学习在此数据集上进行训练，以应对那些不相关的QA pair。本文提出了四种模型来解决VideoQA任务，这四种模型都是从用于其他任务(如视频字幕和ImageQA)的模型扩展而来的。同年，Zhao等人[7]提出了从目标的关键视频帧中学习联合表示的时空注意网络，并将所提出的时空注意网络的多步骤推理过程整合到一起，实现了渐进的联合表示学习，进一步提高视频问题回答的性能。2017年，Xu等人[8]提出了端到端的AMU模型，以问题作为指导，逐步细化对视频外观和运动特征的关注，问题被逐单词处理，直到模型产生最终的注意力。同一年，Zhao等人[9]从分层双层次注意力网络的视角出发，采用frame-level和segment-level的特征表示方法来获取视频中物体的外观和运动信息，并通过基于word-level和question-level注意力机制的分层dual-level注意力网络来学习基于问题的视频表示，可以有效的建模视频的动态性。2018年，针对现有视频问答数据集中缺乏逻辑结构且具有语言偏置的问题，Song等人[12]提出了新的视频问答benchmark——SVQA，专门包含一些长的、目标间具有多种关系的结构化问题。2019年，Zhang等人[18]使用层次化卷积自注意力编码器对长时视频序列进行建模，并基于多尺度注意力解码器得到答案。同年，Yu等人[23]提出组成注意力网络，基于双流机制对视频片段进行采样，为每个流提取一组视觉特征表示视频的语义信息，再通过组成注意力模块对双流特征进行聚合，在长时视频问答上具有较好的结果。2020年，Zhao等人[26]使用分层注意力编码网络学习长时视频内容和问题的联合表示，并通过多模态条件对抗网络进行解码，最终得到答案。

选择型、开放型均可的视频问答

选择型视频问答和开放型视频问答其实只有问答形式上的区别，很多方法在这两类任务上均适用，并有着不错的结果。

2017年，Jang等人[5]将QA从图像领域拓展到了视频领域，并将VideoQA任务更加细分为三种不同的子任务：①重复计数；②重复动作；③状态转换。Jang等人构造了TGIF-QA数据集，共包含57K个GIFs和104K个QA pair，包括选择型QA pair和开放型QA pair。同年，Ye等人[10]使用frame-level注意力机制建模视频的时序内容，并提出了属性增强注意力网络学习框架，实现了视频问答的frame-level属性检测和统一的视频表示学习，在选择型视频问答和开放型视频问答中均取得了不错的结果。2018年，Gao等人[11]分析了和视觉问答相比，视频问答具有的三个特性：①视频问答需要处理序列图像信息，这包含更加丰富的信息；②运动和外观信息存在联系，并能给对方提供有用的注意力线索；③对于不同的问题，需要不同数量的帧来得到答案。基于这三个特性，Gao等人提出运动-外观共同记忆网络，使用时间卷积-反卷积架构建立多层次上下文信息，联合运动和外观信息得到注意力，并通过一种动态事实集成方法，动态地构造不同问题的时间表示。2019年，由于现有方法大多使用RNNs进行建模，降低了模型的速度，且难以建模长时依赖。Li等人[14]提出了基于联合注意力的位置自注意力模型，可以建模全局依赖且提高了模型的速度。同年，Gao等人[15]提出STA模型，使用结构化双流注意力网络共同关注视频和文本的空间和长时时间信息来得出准确的答案。同一年，Fan等人[16]提出使用异构记忆从运动特征和外观特征中学习全局上下文信息，设计了全新的问题记忆模块用于帮助模型理解问题中的复杂语义信息、突出查询对象，并设计了多模态融合层，通过将相关的视觉内容和关键问题词对齐同时处理两种模态的信息。2019年，Kim等人[17]提出渐进式注意力记忆网络用于电影故事问答任务。主要应对此任务中的两个挑战：①如何在普遍超过1小时时长的电影中找出与回答当前问题相关的时间片段；②如何合理利用视频和字幕两种模态进行回答。作者使用渐进式注意力机制，利用问题和答案中的信息逐步清楚记忆中不相关的时间片段，并提出动态模态融合机制，自适应地确定每个模态对回答当前问题的贡献。同年，Jin等人[21]提出多重交互网络Multi-interaction network，使用注意力机制学习视觉、语言两种模态的信息。其中，本文提出的注意力机制可以同时捕获element-wise和segment-wise的序列交互。并通过考虑物体的关系捕获更加细粒度的时空信息。2019年，Li等人[20]提出多路径金字塔联合注意力结构同时对两种模态的信息进行建模，并提出一种可学习的、非RNN结构的聚集方法，对视频中不同帧的特征进行聚集。

结论

从上文中可以看出，视频问答领域主要存在以下问题需要解决：

如何表示视频，需要一个合理的视频建模方法，能够提取外观信息和运动信息；
如何根据问题找出视频中相关的片段并对回答问题的过程进行指导；
多模态信息对齐和融合问题；

虽然视觉语言领域中许多任务已经解决的很不错了，但是视频问答任务在准确率上还不尽人意，需要我们不断努力！

参考文献

Tu K, Meng M, Lee M W, et al. Joint video and text parsing for understanding events and answering queries[J]. IEEE MultiMedia, 2014, 21(2): 42-70.
Zhu L, Xu Z, Yang Y, et al. Uncovering the temporal context for video question answering[J]. International Journal of Computer Vision, 2017, 124(3): 409-421.
Tapaswi M, Zhu Y, Stiefelhagen R, et al. Movieqa: Understanding stories in movies through question-answering[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 4631-4640.
Maharaj T, Ballas N, Rohrbach A, et al. A dataset and exploration of models for understanding video data through fill-in-the-blank question-answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6884-6893.
Jang Y, Song Y, Yu Y, et al. Tgif-qa: Toward spatio-temporal reasoning in visual question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2758-2766.
Zeng K H, Chen T H, Chuang C Y, et al. Leveraging video descriptions to learn video question answering[J]. arXiv preprint arXiv:1611.04021, 2016.
Zhao Z, Yang Q, Cai D, et al. Video Question Answering via Hierarchical Spatio-Temporal Attention Networks[C]//IJCAI. 2017: 3518-3524.
Xu D, Zhao Z, Xiao J, et al. Video question answering via gradually refined attention over appearance and motion[C]//Proceedings of the 25th ACM international conference on Multimedia. 2017: 1645-1653.
Zhao Z, Lin J, Jiang X, et al. Video question answering via hierarchical dual-level attention network learning[C]//Proceedings of the 25th ACM international conference on Multimedia. 2017: 1050-1058.
Ye Y, Zhao Z, Li Y, et al. Video question answering via attribute-augmented attention network learning[C]//Proceedings of the 40th International ACM SIGIR conference on Research and Development in Information Retrieval. 2017: 829-832.
Gao J, Ge R, Chen K, et al. Motion-appearance co-memory networks for video question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6576-6585.
Song X, Shi Y, Chen X, et al. Explore multi-step reasoning in video question answering[C]//Proceedings of the 26th ACM international conference on Multimedia. 2018: 239-247.
Lei J, Yu L, Bansal M, et al. Tvqa: Localized, compositional video question answering[J]. arXiv preprint arXiv:1809.01696, 2018.
Li X, Song J, Gao L, et al. Beyond rnns: Positional self-attention with co-attention for video question answering[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 8658-8665.
Gao L, Zeng P, Song J, et al. Structured two-stream attention network for video question answering[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 6391-6398.
Fan C, Zhang X, Zhang S, et al. Heterogeneous memory enhanced multimodal attention model for video question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 1999-2007.
Kim J, Ma M, Kim K, et al. Progressive attention memory network for movie story question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 8337-8346.
Zhao Z, Zhang Z, Xiao S, et al. Open-Ended Long-form Video Question Answering via Adaptive Hierarchical Reinforced Networks[C]//IJCAI. 2018: 3683-3689.
Kim J, Ma M, Kim K, et al. Gaining extra supervision via multi-task learning for multi-modal video question answering[C]//2019 International Joint Conference on Neural Networks (IJCNN). IEEE, 2019: 1-8.
Xiangpeng Li, Lianli Gao, Xuanhan Wang, Wu Liu, Xing Xu, Heng Tao Shen, and Jingkuan Song. 2019. Learnable Aggregating Net with Diversity Learning for Video Question Answering. In Proceedings of the 27th ACM International Conference on Multimedia (MM '19). Association for Computing Machinery, New York, NY, USA, 1166–1174. DOI:https://doi.org/10.1145/3343031.3350971
Jin W, Zhao Z, Gu M, et al. Multi-interaction network with object relation for video question answering[C]//Proceedings of the 27th ACM International Conference on Multimedia. 2019: 1193-1201.
Yang T, Zha Z J, Xie H, et al. Question-aware tube-switch network for video question answering[C]//Proceedings of the 27th ACM International Conference on Multimedia. 2019: 1184-1192.
Yu T, Yu J, Yu Z, et al. Compositional attention networks with two-stream fusion for video question answering[J]. IEEE Transactions on Image Processing, 2019, 29: 1204-1218.
Wang A, Luu A T, Foo C S, et al. Holistic multi-modal memory network for movie question answering[J]. IEEE Transactions on Image Processing, 2019, 29: 489-499.
Garcia N, Nakashima Y. Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions[J]. arXiv preprint arXiv:2007.08751, 2020.
Zhao Z, Xiao S, Song Z, et al. Open-Ended Video Question Answering via Multi-Modal Conditional Adversarial Networks[J]. IEEE Transactions on Image Processing, 2020, 29: 3859-3870.
Yang Z, Garcia N, Chu C, et al. BERT Representations for Video Question Answering[C]//The IEEE Winter Conference on Applications of Computer Vision. 2020: 1556-1565.

Video Question Answering综述引言选择型视频问答开放型视频问答选择型、开放型均可的视频问答结论参考文献

目录

引言

选择型视频问答

开放型视频问答

选择型、开放型均可的视频问答

结论

参考文献

继续阅读

增强现实开发综述

基于深度学习的目标检测算法及其在医学影像中的应用1 引言2 基于深度学习的目标检测算法3 深度学习算法在医学影像领域的应用4 思考与展望5 总结参考文献

【综述】计算机视觉二三事【综述】计算机视觉二三事

软件构造学习心得软件构造学习心得

SLAM综述（转）现在与未来

近红外相机高分辨成像将迎来行业爆发（二）近红外相机高分辨成像将迎来行业爆发（二）

车牌识别综述

Visual Question Answering: A Survey of Methods and Datasets Abstract1. Introduction2. Methods for VQA2.1 Joint embedding approaches3. Datasets and evaluation4. Structured scene annotations for VQA5. Discussion and future directions

CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记简介动机贡献方法实验

CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记简介动机贡献方法实验

A Survey on Deep Transfer Learning 2018 翻译A Survey on Deep Transfer Learning 2018 翻译

《A Survey on Transfer Learning》中文版翻译《迁移学习研究综述》迁移学习研究综述

迁移学习 A Survey on Deep Transfer Learning- Chuanqi Tan

论文笔记：Multiple Object Tracking: A Literature Review

HPatches A benchmark and evaluation of handcrafted and learned local descriptors——2017.04

博客伴我飞翔博客伴我飞翔