一、背景

本文实现的模型来自于论文：《Dynamic Memory Networks for Visual and Textual Question Answering》

之前做了两个月杂活，最近该上手实验了，这里先从别人的实验开始学习。这篇是视觉问答实验的第一篇。

实验数据比较多，图片用的是COCO的，文本标注是VQA 1.0的，另外还用到了vgg16，所以需要准备的东西也非常多。

二、论文简介

论文的下载链接为：https://arxiv.org/pdf/1603.01417.pdf

先给出论文的摘要：

Neural network architectures with memory and attention mechanisms exhibit certain reasoning capabilities required for question answering. One such architecture, the dynamic memory network (DMN), obtained high accuracy on a variety of language tasks. However, it was not shown wheth

视觉问答学习（一）——视觉问答的动态记忆网络DMN+（tensorflow实现）一、背景二、论文简介

一、背景

二、论文简介

继续阅读

【文献阅读】具有循环一致性的鲁棒VQA与数据集VQA-Rephrasings（M. Shah等人，CVPR，2019）一、文章概况二、文章导读三、文献详细介绍四、小结

【文献阅读】BAN——双线性注意力网络Bilinear Attention Networks（J. Kim等人，NIPS，2018，有代码）一、文章概况二、文章导读三、文章详细介绍四、小结

【文献阅读】ST-VQA——利用图像中的场景文本进行视觉问答（A. F. Biten等人，ICCV，2019）一、背景二、文章导读三、文章详细介绍四、小结

【文献阅读】VQA-CTI——将知识蒸馏用于视觉问答VQA的紧凑三重交互（T. Do等人，ICCV，2019，有代码）一、背景三、文章详细介绍四、小结

【文献阅读】VQA的综述：数据集，算法和挑战（K. Kafle等人，Computer Vision and Image Understanding，2017）一、文章背景二、文章导读三、文章详细介绍四、小结

【文献阅读】RUBi——一种解决单模态偏差的VQA模型（R. Cadene等人，NIPS，2019，有代码）一、文章背景二、文章导读三、文章详细介绍四、小结

【文献阅读】SAN——一种利用双层注意力的VQA网络（T. Do等人，ArXiv，2015，有代码）一、背景二、文章导读三、文章详细介绍四、小结

【文献阅读】利用历史问答的两阶段（two-stage）的Image-QA协同网络（D. Guo等人，CVPR，2019）一、文章概况二、文章导读三、文章详细介绍四、小结

视觉问答学习（二）——堆叠注意力网络SAAA（tensorflow实现）(未完待续)一、背景二、论文简介

视觉问答——使用预训练模型提取特征以及特征融合的代码学习（未完待续，tensorflow实现）一、背景二、VQA关键部分代码三、其他