研究人员打造新型数据集，助力评估扩散模型常识能力

在当前的图像生成技术中，模型如何理解和应用常识成为一个备受关注的问题。

为了探究这一领域的前沿，美国宾夕法尼亚大学的研究团队开展了一项研究，旨在评估扩散模型的常识能力。

他们通过构建一个新数据集，深入剖析模型在图像生成中的表现，为提升人工智能技术提供了科学依据。

日前，相关论文以《常识-T2I 挑战：文本到图像生成模型能理解常识吗？》（Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?）为题发在 arXiv 上。

图∣相关论文（来源：arXiv）

美国宾夕法尼亚大学研究生何牧语是共同一作 [1]。

图∣ 何牧语（来源：资料图）

在研究领域不断进步的今天，扩散模型成为图像生成技术中的一颗璀璨明珠。

然而，随着技术的发展，该团队逐渐发现了这一领域中的一些显著问题。

基于此，课题组提出一项新颖的任务和基准，以用于评估文本到图像（T2I, text-to-image）生成模型生成符合现实生活中常识的图像的能力，并将其称为常识-T2I。

在对扩散模型的调研中，他们识别出了两个最具挑战性的问题：基于对象的图像编辑和常识性图像生成。前者涉及到如何在修改图像内容的同时，保持图中主人公的特征不变。

举例来说，如果我们上传一张家里的狗狗图片，并指示模型生成“在海边奔跑的狗”，生成的结果可能正确，但图中的狗却变成了另一只狗。

后者则是指模型在生成图像时，无法很好地符合我们对常识的理解。

例如，给定短语“Fork in the road”，模型可能会生成“路上的叉子”，而非意指的“分叉的路口”，这暴露了模型在理解人类常识方面的局限性。

图∣通识-T2I 中的一个数据示例的说明（来源：arXiv）

围绕这些问题，课题组开展了关于扩散模型常识的研究，旨在填补这一领域的空白。

首先，他们构建了一个适用于任何扩散模型的常识测试数据集，包含 150 组对照样本。

每个样本都有两个提示词，既能单独考察模型的常识水平，又能通过对比突显问题。

其次，该团队提出了一种有效的打分方法，以检验生成图像内容是否符合常识。

通过将图像内容转化为与文字对齐的嵌入，并与标准答案进行比较，他们利用多模态模型的能力对每个样本的生成结果进行了评估，从而得出平均得分。

最后，通过本次数据集和评分结果，其揭示了当前主流模型在常识理解方面存在的问题。

例如，许多模型在物理常识方面表现较差，生成的图像往往与常识相悖：“没有风的旗帜”在模型看来似乎仍然是飘扬的；而“水中的铅笔”则被误认为是笔直的。

此外，模型在社会常识的理解上也存在不足。例如，在红灯的人行道上生成了一大批过马路的人。

图∣通识-T2I 的评估流程（来源：arXiv）

而本次成果不仅揭示了现有模型的问题，也为后续的模型迭代提供了指导。

研究人员表示，常识能力的提升具有广泛的应用场景，包括生成真实电影场景的扩散模型和生成各种媒介素材（如摄影和海报）的模型。

就研究过程来说，主要分为三个阶段。

首先是选题，该团队确定图像生成模型常识测评是一个比较新的课题，并借鉴了邻近领域的相关研究。

2023 年 8 月，课题组制定了研究目标，并决定构建一个数据集，以便设计出可以为任何模型打分的方法。

接下来是构思测评方法。与测试语言模型的常识水平相比，图像生成模型的测评更具挑战性。

为了判定一幅图像是否符合常识，他们需要将其内容文字化，这样才能与标准答案进行比较。

为此，他们采用了 CLIP（Contrastive Language-Image Pre-Training）模型，将文本和图像转换为嵌入进行比对。

每个样本都包含一个指令，生成图像之后将其内容与文本对齐，从而判断图像是否符合常识。

在构建数据集的过程中，该团队遇到的第一个挑战是如何定义“常识”的类别。

若能够基于类别来构建常识数据，效率将大大提高，且测评结果能够更好地反映模型对各类常识的理解水平。

然而，研究人员发现自己难以穷尽所有的常识类别。为解决这个问题，课题组利用了大模型的少样本提示能力进行启发。

首先，他们想出 10-20 条与常识相关的指令，然后让 GPT 对这些指令进行归类，从中提炼出初步的常识类别。

接着，他们将这些类别和示例再次输入 GPT，借助其推理能力生成了其他相似类别。

通过这个过程，GPT 生成了十多个常见的常识类别。经过筛选研究人员最终归纳出五个主要类别：物理常识、生物常识、社会常识、动物常识和日常用品常识。

课题组遇到的第二个挑战是如何批量生成数据。虽然他们知道数据量不会特别大，不过因为生成模型已经在训练过程中学习了许多常识信息，因此还是得先批量生成数据，再进行人工筛查。

起初，该团队手动编写了 100 条数据，但发现真正符合要求的并不多，且覆盖的类别范围狭窄。为此，他们决定让大模型批量生成数据。

大模型批量生成的优点在于：一方面它能够大规模地生成数据，另一方面它的知识储备在提示词调优后非常广泛。

最关键的是，一旦大模型生成出高质量数据，可以将这些样本反馈给模型，逐步提升其生成质量。

于是，课题组一轮又一轮地将旧数据输入 GPT，不断优化数据质量。

最终一个步骤是模型测试。当他们发现 DALL·E 3 和 Stable Diffusion XL 两个前沿模型，在本次新数据集上遇到严峻挑战时，意味着数据集基本成型。

基于这些数据集，研究人员还构建了利用 GPT-4V 和 CLIP 进行自动评测的两条管线。

研究过程中，最让课题组难忘的时刻是 2023 年 11 月 DALL·E 3 的发布，这一发布让本次研究进程延长了不少。

在 DALL·E 3 发布之前，最强大的模型是 Stable Diffusion XL。当时，该团队准备了大约 200 个高质量样本，而 Stable Diffusion XL 只能正确生成其中的 30%。

然而，GPT-4 Turbo 新版和 DALL·E 3 发布后，DALL·E 3 在这批数据集上的表现显著提升，正确率达到了 60%。

部分原因是 DALL·E 3 会调用 GPT 来改写提示词，增加常识信息的可见度，例如 GPT 将“没有风的旗帜”改写为“耷拉下来的旗帜”。

同时，DALL·E 3 自身的常识推理能力也得到了提升。因此，研究人员之前整理的大量数据集突然变得不再那么具挑战性。

面对这一变化，该团队调整了数据生成流程。每当生成一批数据后，都会利用 DALL·E 进行测试。

如果 DALL·E 无法正确生成部分数据，课题组就会将这些难以处理的数据整理出来，作为样本输入 GPT，进一步生成新的数据。

通过多轮迭代和数据优化，研究人员最终构建出了一大批 DALL·E 难以生成的数据集。

最终，DALL·E 在这些新数据集上的表现降至 40% 左右，这说明该团队成功构建了一批极具挑战性的数据集，从而能够助力于生成式 AI 的进一步发展。

参考资料：

1.Xingyu FU, Muyu He, Yujie Lu, et al. Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense? arXiv, 2406.07546 (2024). https://doi.org/10.48550/arXiv.2406.07546

排版：刘雅坤

研究人员打造新型数据集，助力评估扩散模型常识能力

继续阅读

【AASLD2024速递】聚乙二醇干扰素α-2b治疗获得HBsAg清除的疗程预测：基于基线HBsAg水平建立的简单模型

大模型引领6G革命！最新综述探索未来通信方式覆盖多模态、RAG等

大模型顶流CP由甜转虐：互相不满，都找备胎，因为钱闹不愉快

Archetype AI发布牛顿物理学大模型，从传感器数据中学习物理原理

CNCC | 大模型下的多模态情感计算未来

“伏羲慧眼”大模型重磅发布！拥有全球规模最大的眼科图像数据库

新车 | AI大模型上车，13项新增/27项优化，极氪009光辉OTA升级

AI日报：复旦、百度新模型可生成1小时长视频；全新ChatGPT Windows版本上线；NotebookLM又上2个新功能

测绘通报 | 任萍：基于LOD1城市模型的噪声数据可视化

终端AI分级标准落地，手机大模型“战火”烧到了智能体

J Clin Invest丨杨伟莉/李世华/李晓江团队利用猴模型揭示帕金森疾病新病理机制

大模型训练遭投毒损失千万美元？Anthropic发现LLM代码库暗藏bug

全市近千名青少年齐聚中海博，在航海、航空、建筑三大模型竞赛中一展身手

DeepMind联合MIT开发Fluid，让自回归模型实现文生图的大规模扩展

AI周报 | 字节跳动大模型训练被“投毒”；微软将终止中国个人Azure OpenAI服务

字节跳动回应大模型训练被实习生攻击：已被辞退，不影响线上业务