AI:多模态和大模型的一些经验总结daiding
目录
多模态相关
大规模预训练模型
文章更新中……
多模态相关
多模态机器学习旨在建立能够处理和关联来自多种模态信息的模型。
我们对世界的体验是多模态的(五大感官)——我们看到物体(视觉),听到声音(听觉),感觉到质地(触觉),闻到气味(嗅觉),品尝味道(味觉),其实还包括第六感(心觉)。模态是指事物发生或经历的方式,当一个研究问题包含多种模态时,它就被称为多模态。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够同时解读这些多模态信号。多模态机器学习旨在建立能够处理和关联来自多种模式信息的模型。这是一个充满活力的多学科领域,其重要性和潜力都在不断增加。本文不关注具体的多模态应用,而是对多模态机器学习本身的最新进展进行了调查,并将它们以一种常见的分类方式呈现出来。我们超越了典型的早期和晚期融合分类,并确定了多模态机器学习面临的更广泛的挑战,即:表示、翻译、对齐、融合和共同学习。这种新的分类方法将使研究人员更好地了解该领域的现状,并确定未来的研究方向。
五个挑战:
1)、表示:第一个基本挑战是学习如何以一种利用多模态的互补性和冗余性的方式来表示和总结多模态数据。多模态数据的异质性使得构造这样的表示具有挑战性。例如,语言通常是符号化的,而视听形式将被表示为信号。
2)、翻译:第二个挑战是如何将数据从一种模态转换(映射)到另一种模态。不仅数据是异质的,而且模态之间的关系往往是开放的或主观的。例如,存在许多描述图像的正确方法,并且可能不存在一种完美的翻译。
3)、对齐:第三个挑战是识别来自两个或更多不同模态的(子)元素之间的直接关系。例如,我们可能想要将菜谱中的步骤与显示菜肴制作过程的视频对齐。为了应对这一挑战,我们需要衡量不同模态之间的相似性,并处理可能的长期依赖和歧义。
4)、融合:第四个挑战是将来自两个或更多模态的信息连接起来进行预测。例如,在视听语音识别中,将嘴唇运动的视觉描述与语音信号融合在一起来预测口语单词。来自不同模态的信息可能具有不同的预测能力和噪声拓扑,至少在一种模态中可能丢失数据。
5)、共同学习:第五项挑战是如何在模态、表示和预测模型之间传递知识。这可以通过协同训练、概念基础和零样本学习的算法来例证。共同学习探索了如何从一个模态学习知识可以帮助在不同模态上训练的计算模型。当其中一种模态的资源有限(例如,注释数据)时,这个挑战尤其重要。
作为调查的一部分,我们介绍了多模态机器学习的分类:表示、翻译、对齐、融合和共同学习。
其中一些如融合已经被研究了很长时间,但最近对表示、翻译的兴趣导致了大量新的多模态算法和令人兴奋的多模态应用。
我们相信我们的分类法将有助于对未来的研究论文进行分类,并更好地理解多模态机器学习面临的剩余未解决问题。
感知器官与经验来接收信息的通道,如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合,而多模态交互是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多个通道与计算机进行交流,充分模拟人与人之间的交互方式。
每一种信息的来源或者形式,都可以称为一种模态。
不同模态(例如图像、文本、音频)中学习的方式存在很大差异。
早期的深度学习算法专注于从一个单一的数据源训练其模型。而多模态人工智能是计算机视觉和交互式人工智能智能模型的最终融合,为计算器提供更接近于人类感知的场景。
多模态学习成为当中的重要趋势,它可以被应用在归一、表示、转化、翻译、对齐、融合及协同学习上(representation/translation/alignment/fusion/co-learning)。按照下游任务则可以划分为理解式任务(视觉问答、视觉推理、图文检索等)和生成式任务(文本生成(对话/故事/诗歌)、图像生成文本、文字生成图像等)。
要解决这个问题,需要从端到端打通各个模态之间的关系,形成可以真正多维度交互的智能机器,让感知智能升级为认知智能。