天天看点

AI时代的教师:掌握AI教育“道”,“法”,“术”,“势”“器”

作者:ChatGPT扫地僧

【摘要】AI领域正经历着一场新的范式转型,通过整合多个大型语言模型(LLMs)和其他复杂组件系统来实现突破。因此,开发出针对复合AI系统的高效自动化优化方法成为首要挑战之一。类似于神经网络早期依赖的反向传播和自动微分技术的变革,本文引入了一种新的名为TEXTGRAD的框架,通过文本实现自动“微分”。

AI时代的教师:掌握AI教育“道”,“法”,“术”,“势”“器”

TEXTGRAD利用LLMs生成的文本反馈进行反向传播,优化复合AI系统的各个组成部分。其操作方式类似于PyTorch,具备高度灵活性和易用性。TEXTGRAD无需框架组件和提示的调整,即可自动适用于各种任务。我们的研究展示了TEXTGRAD在解决问题答案优化、分子优化及放射治疗计划等多方面的高效表现。经过实验验证,TEXTGRAD使GPT-4o在Google-Proof问答中的零样本准确率从51%提升至55%,在LeetCode-Hard代码问题的优化中实现了20%的相对性能提升,并成功设计了针对性的治疗方案。TEXTGRAD为 развитию следующего поколения ИИ систем laid the foundation for the next generation of AI system development.

原文:Automatic "Differentiation" via Text

地址:https://arxiv.org/abs/2406.07496

代码:https://github.com/zou-group/textgrad

出版:arXiv

机构: 斯坦福大学

1. 研究问题

本文研究的核心问题是如何设计一个通用且自动化的框架来优化由多个大型语言模型和复杂组件构成的复合AI系统。

考虑一个双层问答系统:第一部分是一个大型语言模型,根据给定提示生成答案;第二部分是另一个大型语言模型,评估答案并打分。当前的挑战在于如何自动调整提示,以便第一部分输出的答案获得尽可能高的评分。

该研究面临以下几方面的挑战:

  • 复合AI系统的组件常常是不可微的黑盒,传统的基于梯度的优化方法难以奏效。
  • 这些组件的中间变量和输出通常以非结构化的形式存在,如自然语言文本,增加了优化难度。
  • 优化的目标函数可能复杂且不可微,有时需要另一个AI系统来计算。
  • 现有方法常需大量定制开发,缺乏一个通用的、自动化的优化框架供普遍使用。

基于上述挑战,本文提出了一种强大的基于文本反馈的自动微分框架TEXTGRAD。TEXTGRAD将复杂AI系统表示为一个计算图,其中变量可以是任意非结构化数据,边上的函数可以是不可微的复杂算子。通过LLMs产生的文本反馈来反向传播,并优化每个变量。TEXTGRAD操作方式与PyTorch类似,即便不同领域的任务也能直接开箱即用。

AI时代的教师:掌握AI教育“道”,“法”,“术”,“势”“器”

2. 研究方法

提到TEXTGRAD框架,它将AI系统展现为一个计算图,变量可以是任何非结构化数据。以一个由两个LLM调用组成的系统为例,优化通过两个步骤实现:首先是变量通过提示生成预测,其次是通过另一模型的指令对预测进行评估。TEXTGRAD通过自然语言生成梯度反馈,并使用文本梯度下降(TGD)指导变量优化。

框架支持多次优化迭代,直到得到最优解。从优化方式上,TEXTGRAD灵活运用了众多技术,结合了批量优化和约束优化,实现了高效的自动优化。

3. 实验

本文在多领域、多个实验场景下验证了TEXTGRAD的有效性,如代码优化、科学问题回答、分子设计和放射治疗计划优化等。实验结果显著,表明TEXTGRAD不需要框架调整即可在复杂系统中取得优异表现。

AI时代的教师:掌握AI教育“道”,“法”,“术”,“势”“器”
AI时代的教师:掌握AI教育“道”,“法”,“术”,“势”“器”
  • 实例优化:在LeetCode Hard数据集上优化代码,TEXTGRAD将GPT-4o的通过率从23%提升至36%。
  • 科学问题回答:在科学问题数据集中,TEXTGRAD将GPT-4o的零样本准确率从51%提升至55%。
  • 推理任务提示优化:通过优化提示,提高了GPT-3.5在多个推理任务上的表现。
  • 药物分子优化:同时优化分子的结合能和类药性,在58个靶点上持续改进结合能和类药性。
  • 放射治疗计划优化:优化前列腺癌放射治疗中的剂量分布,兼顾肿瘤剂量和器官保护。

4. 总结

本文提出的TEXTGRAD框架通过LLM生成的自然语言反馈指导优化,展示了其在复杂AI系统中的应用潜力。TEXTGRAD为AI系统的发展和普及奠定了基础,在代码优化、科学问题解答、分子设计和放射治疗计划等多个领域展现了优异表现。未来可能的研究方向包括将TEXTGRAD与其他优化技术结合,扩展其应用范围。

继续阅读