近日,国际权威机器视觉问答榜单
VQA Leaderboard出现关键突破
阿里巴巴达摩院以81.26%的准确率
创造了新纪录
让AI在“读图会意”上首次超越人类基准
近10年来,AI技术保持高速发展。然而在视觉问答VQA(Visual Question Answering)这一涉及视觉-文本多模态理解的高阶认知任务上,AI始终未取得超越人类水平的突破。
为攻克这一难题而设立的挑战赛VQA Challenge,自2015年起先后于全球计算机视觉顶会ICCV及CVPR举办,形成了国际上规模最大、认可度最高的VQA数据集,其包含超20万张真实照片、110万道考题。
在首届VQA挑战赛上,AI的最高准确率仅能达到55%。今年8月,达摩院以81.26%的准确率创造VQA Leaderboard全球纪录,首次超越人类基准线80.83%。
这是VQA测试以来,AI第一次超过人类水平,是标志性的重大突破。
VQA技术自2015年的进展
01什么是VQA?
自然语言技术与计算机视觉交融,是多模态领域重要的前沿研究方向。其中,VQA是AI领域难度最高的挑战之一,对研发通用AI具有重要意义。
VQA的任务是根据给定图片及自然语言问题,生成正确的自然语言回答。
例如下面这张图,AI先提取了问题关键信息——玩具人;再根据常识做出回答——星球大战。
VQA问题
What movie franchise are the action figures from?(图中玩具人的IP出自哪部电影?)
完成VQA挑战,需要AI从图像中提取与问题相关的信息,包含从细微物体的监测到抽象场景的推理,并基于对视觉、语言和常识性知识的理解做出回答,也就是“读图会意”——通过视觉理解信息,是人类的一项基础能力,但对AI来说却是要求极高的认知任务。
VQA挑战的核心难点也在于此:单个AI模型需融合复杂的计算机视觉及自然语言技术,才能够根据给定的图片以及自然语言问题生成正确的回答。
02 VQA高分背后
为了解决VQA挑战,达摩院对AI视觉-文本推理体系进行了系统性的设计,并融合大量算法创新,针对运算流程进行优化:
提升图片理解能力
测试中,AI需要先对图像信息进行扫描,为提高图片理解能力,达摩院运用了多项创新算法。
多样性视觉特征表示:同时使用Region,Grid,Patch等多样性视觉特征表示,从各方面刻画图片的局部和全局语义信息。
更好地让AI理解图文关联
AI需结合对问题文本的理解,建立图片与文字的关联性:即多模态信息融合。
多模态预训练模型:达摩院提出SemVLP,Grid-VLP,E2E-VLP和Fusion-VLP等预训练模型,用于进行多模态信息融合和语义映射。
自适应的跨模态语义融合和对齐技术:为使这一融合更加高效,研发自适应的跨模态语义融合和对齐技术,在预训练模型中,加入了Learning to Attend机制。
其中自研的多模态预训练模型E2E-VLP,StructuralLM已被国际顶级会议ACL2021接受。
相关论文:
1.E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning, ACL2021
2.A Structural Pre-trained Model for Table and Form Understanding, ACL 2021
3.SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels
让AI更有常识
在图文融合基础上,为AI增加更多常识性内容,提高对图片和文本的理解推理能力。
知识驱动的多技能AI集成:采用Mixture of Experts (MOE)技术进行知识驱动的多技能AI集成,类似于为AI增加计数、读钟表等生活技能,以及百科知识等“人类常识”。
03 VQA的未来
VQA技术拥有广阔的应用场景,可用于图文阅读、跨模态搜索、盲人视觉问答、医疗问诊、智能驾驶等领域,或将变革人机交互方式。
目前,VQA技术已在阿里内部应用于智能客服、直播视频交互、跨模态搜索等场景。
例如部分淘宝天猫商家的店小蜜客服开通了VQA视觉问答功能:一般商品详情海报上包含了大量有价值的商品信息,当消费者对商品进行提问时,AI客服可通过理解、检索商品海报进行回答,如裁切一张小图作为答案。
这既能够快速帮助消费者解决疑问,也能为卖家节省了大量配置成本。盒马、考拉的客服场景,闲鱼的图文同款匹配场景也接入了VQA能力。
未来,当VQA技术在电商领域成熟运用后,还将被推广至医疗问诊等更广泛的社会应用领域。