在当前的图像生成技术中,模型如何理解和应用常识成为一个备受关注的问题。
为了探究这一领域的前沿,美国宾夕法尼亚大学的研究团队开展了一项研究,旨在评估扩散模型的常识能力。
他们通过构建一个新数据集,深入剖析模型在图像生成中的表现,为提升人工智能技术提供了科学依据。
日前,相关论文以《常识-T2I 挑战:文本到图像生成模型能理解常识吗?》(Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?)为题发在 arXiv 上。
图∣相关论文(来源:arXiv)
美国宾夕法尼亚大学研究生何牧语是共同一作 [1]。
图∣ 何牧语(来源:资料图)
在研究领域不断进步的今天,扩散模型成为图像生成技术中的一颗璀璨明珠。
然而,随着技术的发展,该团队逐渐发现了这一领域中的一些显著问题。
基于此,课题组提出一项新颖的任务和基准,以用于评估文本到图像(T2I, text-to-image)生成模型生成符合现实生活中常识的图像的能力,并将其称为常识-T2I。
在对扩散模型的调研中,他们识别出了两个最具挑战性的问题:基于对象的图像编辑和常识性图像生成。前者涉及到如何在修改图像内容的同时,保持图中主人公的特征不变。
举例来说,如果我们上传一张家里的狗狗图片,并指示模型生成“在海边奔跑的狗”,生成的结果可能正确,但图中的狗却变成了另一只狗。
后者则是指模型在生成图像时,无法很好地符合我们对常识的理解。
例如,给定短语“Fork in the road”,模型可能会生成“路上的叉子”,而非意指的“分叉的路口”,这暴露了模型在理解人类常识方面的局限性。
图∣通识-T2I 中的一个数据示例的说明(来源:arXiv)
围绕这些问题,课题组开展了关于扩散模型常识的研究,旨在填补这一领域的空白。
首先,他们构建了一个适用于任何扩散模型的常识测试数据集,包含 150 组对照样本。
每个样本都有两个提示词,既能单独考察模型的常识水平,又能通过对比突显问题。
其次,该团队提出了一种有效的打分方法,以检验生成图像内容是否符合常识。
通过将图像内容转化为与文字对齐的嵌入,并与标准答案进行比较,他们利用多模态模型的能力对每个样本的生成结果进行了评估,从而得出平均得分。
最后,通过本次数据集和评分结果,其揭示了当前主流模型在常识理解方面存在的问题。
例如,许多模型在物理常识方面表现较差,生成的图像往往与常识相悖:“没有风的旗帜”在模型看来似乎仍然是飘扬的;而“水中的铅笔”则被误认为是笔直的。
此外,模型在社会常识的理解上也存在不足。例如,在红灯的人行道上生成了一大批过马路的人。
图∣通识-T2I 的评估流程(来源:arXiv)
而本次成果不仅揭示了现有模型的问题,也为后续的模型迭代提供了指导。
研究人员表示,常识能力的提升具有广泛的应用场景,包括生成真实电影场景的扩散模型和生成各种媒介素材(如摄影和海报)的模型。
就研究过程来说,主要分为三个阶段。
首先是选题,该团队确定图像生成模型常识测评是一个比较新的课题,并借鉴了邻近领域的相关研究。
2023 年 8 月,课题组制定了研究目标,并决定构建一个数据集,以便设计出可以为任何模型打分的方法。
接下来是构思测评方法。与测试语言模型的常识水平相比,图像生成模型的测评更具挑战性。
为了判定一幅图像是否符合常识,他们需要将其内容文字化,这样才能与标准答案进行比较。
为此,他们采用了 CLIP(Contrastive Language-Image Pre-Training)模型,将文本和图像转换为嵌入进行比对。
每个样本都包含一个指令,生成图像之后将其内容与文本对齐,从而判断图像是否符合常识。
在构建数据集的过程中,该团队遇到的第一个挑战是如何定义“常识”的类别。
若能够基于类别来构建常识数据,效率将大大提高,且测评结果能够更好地反映模型对各类常识的理解水平。
然而,研究人员发现自己难以穷尽所有的常识类别。为解决这个问题,课题组利用了大模型的少样本提示能力进行启发。
首先,他们想出 10-20 条与常识相关的指令,然后让 GPT 对这些指令进行归类,从中提炼出初步的常识类别。
接着,他们将这些类别和示例再次输入 GPT,借助其推理能力生成了其他相似类别。
通过这个过程,GPT 生成了十多个常见的常识类别。经过筛选研究人员最终归纳出五个主要类别:物理常识、生物常识、社会常识、动物常识和日常用品常识。
课题组遇到的第二个挑战是如何批量生成数据。虽然他们知道数据量不会特别大,不过因为生成模型已经在训练过程中学习了许多常识信息,因此还是得先批量生成数据,再进行人工筛查。
起初,该团队手动编写了 100 条数据,但发现真正符合要求的并不多,且覆盖的类别范围狭窄。为此,他们决定让大模型批量生成数据。
大模型批量生成的优点在于:一方面它能够大规模地生成数据,另一方面它的知识储备在提示词调优后非常广泛。
最关键的是,一旦大模型生成出高质量数据,可以将这些样本反馈给模型,逐步提升其生成质量。
于是,课题组一轮又一轮地将旧数据输入 GPT,不断优化数据质量。
最终一个步骤是模型测试。当他们发现 DALL·E 3 和 Stable Diffusion XL 两个前沿模型,在本次新数据集上遇到严峻挑战时,意味着数据集基本成型。
基于这些数据集,研究人员还构建了利用 GPT-4V 和 CLIP 进行自动评测的两条管线。
研究过程中,最让课题组难忘的时刻是 2023 年 11 月 DALL·E 3 的发布,这一发布让本次研究进程延长了不少。
在 DALL·E 3 发布之前,最强大的模型是 Stable Diffusion XL。当时,该团队准备了大约 200 个高质量样本,而 Stable Diffusion XL 只能正确生成其中的 30%。
然而,GPT-4 Turbo 新版和 DALL·E 3 发布后,DALL·E 3 在这批数据集上的表现显著提升,正确率达到了 60%。
部分原因是 DALL·E 3 会调用 GPT 来改写提示词,增加常识信息的可见度,例如 GPT 将“没有风的旗帜”改写为“耷拉下来的旗帜”。
同时,DALL·E 3 自身的常识推理能力也得到了提升。因此,研究人员之前整理的大量数据集突然变得不再那么具挑战性。
面对这一变化,该团队调整了数据生成流程。每当生成一批数据后,都会利用 DALL·E 进行测试。
如果 DALL·E 无法正确生成部分数据,课题组就会将这些难以处理的数据整理出来,作为样本输入 GPT,进一步生成新的数据。
通过多轮迭代和数据优化,研究人员最终构建出了一大批 DALL·E 难以生成的数据集。
最终,DALL·E 在这些新数据集上的表现降至 40% 左右,这说明该团队成功构建了一批极具挑战性的数据集,从而能够助力于生成式 AI 的进一步发展。
参考资料:
1.Xingyu FU, Muyu He, Yujie Lu, et al. Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense? arXiv, 2406.07546 (2024). https://doi.org/10.48550/arXiv.2406.07546
排版:刘雅坤