我们本可以留在 DeepMind,继续推动智能体技术的发展,但我认为我们选择自行创业的根本原因,在于我们相信这样可以更快地取得进展,更迅速地应对挑战。
这种紧迫感源于我们坚信一个事实:距离实现类似 AGI 的目标,仅剩大约三四年的时间。
文 | 王启隆
出品丨AI 科技大本营(ID:rgznai100)本文为 CSDN 编辑整理,未经授权,禁止转载。2024 年的 AI 圈,有两样东西特别珍贵,一样是 H100 显卡,另一样就是人才。马斯克就曾经在今年四月感慨过这事,说“人工智能的人才争夺战是我见过的最疯狂的人才争夺战!”(The talent war for AI is the craziest talent war I’ve ever seen!)而这事的背景是他的“死对头” OpenAI 想花重金挖角特斯拉自动驾驶团队的机器学习科学家 Ethan Knight,马斯克见状只好先出手把人留了下来,并给整个公司的 AI 工程团队加了加薪。
除了挖角,AI 圈还有一批人才通过不同的方式出走,那就是创业。今年五月份的时候,有两大重磅新闻。前者是 OpenAI 发布了 GPT-4o,抢走了 Google I/O 2024 的热搜。后者是 OpenAI 首席科学家 Ilya Sutskever 的离职,抢走了 Google I/O 2024 的剩余热度。Ilya 后来告诉大家,他去创业了,想打造一款“安全超级智能”。
这里有个很有意思的渊源:OpenAI 本身就是 Ilya Sutskever 从谷歌离职创业的成果。作为经常被 AI 圈同行挖角的公司(据 LeadGenius 和 Punks & Pinstripes 的数据统计,2023 年初的时候 OpenAI 300 多名员工里有 59 名谷歌前员工),谷歌可能也是 AI 圈离职创业最高频的公司之一。我们常在新闻看到的“开源独角兽” Mistral AI,由 DeepMind、谷歌和 Meta 三家公司前员工组成的 Reka AI,还有“Transformer 八子”开枝散叶之后成立的 Sakana AI,全都是谷歌前员工的离职创业成果。我们先前也整理过 Transformer 八子中 Aidan Gomez 的最新采访,他虽然当年只是在谷歌实习,但后面也确实是离职创业了,现在甚至壮大成 400 人的团队。聚是一团火,散是满天星。
今天要为大家介绍的,是年初的另一起离职创业事件,主角是 DeepMind 的前研究科学家 —— Misha Laskin。当时的新闻聚焦在和他一起出走的另一位 DeepMind 大神 Ioannis Antonoglou 身上,因为这位 Ioannis 不仅是 AlphaGo 和 AlphaZero 的共同创造者,还是 Gemini 的 RLHF 负责人。但 Misha Laskin 也不是等闲之辈。他同样参与过 Gemini 项目,现在致力于打造大语言模型的“AlphaGo 时刻”。
Misha Laskin
如今,两人离开 DeepMind,理由却是因为他们坚信“AGI 在 3 年之内就会实现”,所以他们会在新公司 Reflection AI 中将强化学习的搜索功能与大语言模型(LLMs)结合起来,矢志于“通用智能体”,为未来的开发者们训练最可靠的模型。以下,是 Misha Laskin 最新接受的采访全文,他会分享自己的技术生涯故事、AlphaGo 背后的故事和 Gemini 内部的秘密,同时详细地为我们描述近期智能体(Agent)热潮的来龙去脉,让你重新了解智能体的巧妙之处。
AlphaGo 背后的故事
主持人:首先,我们很想深入了解你的个人经历。你出生在俄罗斯,一岁时移居以色列,然后在九岁时搬到了美国的华盛顿州。你的父母在化学领域深入科研,而这可能激发了你对推进科技前沿的热爱,并引领你步入了今天的 AI 世界。
可以向我们分享一下,是什么激励你进入这个领域,并在你至今的童年和成年生活中一直激励着你?
Misha Laskin:当我的父母离开俄罗斯,前往以色列之际,正值苏联解体,他们几乎是两手空空,口袋里大概只有 300 美元,而这笔钱在他们刚落地时就被偷走了,因为他们为一间公寓付了押金,然而这笔押金却不知所踪,我甚至不知道那间公寓是否存在。
由于不通希伯来语,他们决定在耶路撒冷的希伯来大学攻读化学博士学位,这并非是因为他们对学术研究的满腔热忱,而是想要以色列政府为俄罗斯移民提供的深造奖学金。所以,我的父母一开始并未对化学抱有狂热的激情,但随着对化学的不断学习、探究和深入,他们却成为了这一领域的佼佼者。
当我询问父母这段经历时,他们表示,随着时间推移,他们对所从事的领域产生了深厚的感情,因为他们在这个过程中逐渐变得极为出色。我想,这是我从他们那里学到的最重要的一课。
Misha 的老爹,普渡大学分析和物理化学家 Alexander Laskin
当我们从以色列搬家到美国时,我的父母提前向我承诺会搬到美丽的华盛顿州,那里山峦起伏,风景如画。所以在离开以色列之前,我对朋友们夸口说自己将会搬去一个美丽的地方,心中充满了期待。我还清晰记得,我们乘坐飞机穿越天际时的那份激动。飞行途中,我确实瞥见了远处连绵的山脉,然而,飞机却突然来了一个大转弯 —— 可能你们并不了解,华盛顿州的真实地理环境是这样的:一半是广阔的沙漠,另一半则是郁郁葱葱的山林。所以,当时飞机转向了沙漠那一边的方向,年幼的我目睹着飞机降落在一片荒凉之地。
我疑惑地询问父母,说好的山脉究竟在哪儿?他们告诉我,“你已经在飞机上见到了。”
我之所以提起这段往事,是因为我实际上搬到了一个相当乏味的地方。具体是哪个城市呢?华盛顿州有一片区域被称为“Tri-Cities”,这里蕴藏着一段独特的历史,它是曼哈顿计划的一个关键站点 —— 汉福德基地。这是钚元素的聚集地,与洛斯阿拉莫斯基地遥相呼应,同属曼哈顿计划的重要组成部分。1940 年代,为了支持这一项目,Tri-Cities 小镇应运而生,如同洛斯阿拉莫斯一样,坐落在偏远地带,周围几乎没有什么娱乐活动。
电影《奥本海默》里描绘的秘密小镇
我至今仍记得第一次目睹高速公路上随风飘荡的“风滚草”,那一刻让我发现自己置身于一个陌生的环境,英语并不熟练。我生活在一个与我成长环境截然不同的乡村,那里朋友寥寥,所以我拥有着大量的闲暇时光。
我对科学的兴趣,最初源于对物理学的好奇。当时我沉迷于电子游戏,心灵相当空虚,这时我偶然发现了我的父母收藏着关于费曼物理学讲座的资料。这些讲座之所以引人入胜,是因为费曼独树一帜的讲解方式,他能够以一种平易近人的语言,深入浅出地解析极其复杂的概念,即便是数学基础较为薄弱的人也能从中领悟到自然界运行的基本法则。
费曼无疑成为了我获得灵感的源泉。我开始对探寻事物运作的根本规律产生了浓厚的兴趣,渴望解决那些核心问题。我阅读了许多案例,比如晶体管的发明,这项成就出自理论物理学家乔·巴丁之手,又或是 GPS 的运作原理 —— 令人惊讶的是,要理解和应用 GPS,必须掌握相对论计算,而这正是基于爱因斯坦的狭义相对论。随着我发现这些案例的关联,我开始渴望投身于这类创新工作,这便是我投身物理学的初衷。我全身心投入,不断学习,最终获得了博士学位。
然而,我当年还没领悟一个道理:你不仅应该专注于解决核心问题,更重要的是,你还应该致力于解决你所在时代的核心问题,即那些正处于突破边缘的课题。
这并不让人意外,当你成为一名物理学家,接受专业培训时,你将面对一系列引人入胜的问题,学习前人在大约一百年前对物理学的精妙见解。在那个时代,物理学正是科学研究的核心,这也正是我最终决定放弃将物理学作为职业道路的原因 —— 我来了个 180 度的大转弯,决定投身实践。
因此,我创办了一家公司。然而,在此期间,我开始留意到深度学习领域的迅猛发展,尤其是 AlphaGo 的出现。当 AlphaGo 横空出世时,我感受到了前所未有的震撼:他们是如何创造出这样的系统?一台计算机,不仅能展现出超越人类的表现,还能展现出创造性思维。
在 AlphaGo 的比赛中,有一个尤为著名的举动,被称为「第 37 手」,神经网络执行了看似愚蠢的走法,令他的对手李世石感到困惑不已。所有人对此都感到不解,它看起来就像是一个明显的失误。然而,十步之后,事实证明,这恰恰是让 AlphaGo 占据优势地位的关键一招。这足以说明,这不仅仅是简单的暴力查询。
第 37 手(Move 37)
显然,尽管系统进行了大量的搜索,但它却能够找到之前未曾被人类考虑过的创新解决方案。这一刻,我深切地感受到解决智能体问题的重要性,并认为 AlphaGo 是第一个真正的大型超人类智能体(Agent)。这一发现让我感到无比震撼。这就是我步入 AI 领域,从一开始就致力于构建智能体的原因。
我的路径并非直线前行,而是曲折多变。作为一个局外人,我面临着激烈的竞争。OpenAI 大约在 2018 年或 2019 年发布了一系列研究课题,这些课题是他们希望其他人参与研究的项目。当我看到这份列表时,它实际上已经有些过时,所以我猜测他们对这些课题的兴趣可能已经减弱。但这给我提供了一个明确的研究方向。我开始针对其中一个问题展开研究,感觉自己正在取得进展。
虽然我不确定实际进展了多少,但我后来频繁地向几位来自 OpenAI 的研究科学家提问,我持续不断地给他们发送邮件,直到可能他们觉得我有点过于执着,但他们还是以极高的专业素养回应了我。通过这一过程,我在那里建立了一些联系。其中一人将我引荐给了 Peter Abbeel,他是伯克利大学的研究主管之一,也是我认为在强化学习和机器人领域最杰出的研究者之一。他的实验室涉猎广泛,不仅限于某一领域。他们进行了一些最具影响力的研究,尤其是在生成模型方面。其中一个关键的扩散模型论文就是出自该实验室,我不得不承认,我的确是幸运的。
Peter Abbeel
Peter 愿意承担风险,将我纳入他的团队。他其实并没有充分的理由这样做。当我后来站在另一方,审视那些申请加入团队的人时,我意识到他完全没必要选择一个未经验证的新人。但他还是决定给予我机会。我想,这正是我踏入 AI 领域,迈出的第一步。
主持人:你和你的联合创始人 Ioannis Antonoglou 在 DeepMind 和 Google 完成了在我看来堪称卓越的项目。能否展示一些你们共同参与的项目,比如 Gemini 和 AlphaGo?
Misha Laskin:Ioannis Antonoglou 实际上是真正引领我踏入 AI 领域的人。他是 AlphaGo 项目的关键工程师之一,并亲历了 AlphaGo 在首尔与李世石对决的那一刻。实际上,在 AlphaGo 问世之前,他就参与了一项名为 Deep Q-Networks(DQN)的开创性工作。DQN 是深度学习时代首个取得成功突破的智能体,能够驾驭 Atari 电子游戏。这一里程碑式的成果催化了整个深度强化学习领域的蓬勃发展,即自主学习在视频游戏和机器人环境中的行动能力的 AI 系统。
Ioannis Antonoglou
然而,这仅仅是开端。它证明了一个至关重要的点:仅凭原始感官输入,AI 系统就能学会在环境中可靠地行动。我认为,这一突破与 2012 年神经网络在 ImageNet 上的卓越表现具有同等的重大意义。随后,Ioannis 继续参与了 AlphaGo 及其后续系列项目。其中包括 AlphaGo 本身、AlphaZero,以及一篇题为 MuZero 的论文。这些项目生动展现了这一理念的深远影响。与我们现今拥有的大语言模型相比,AlphaGo 的模型规模虽小,但在其专长领域展现出了惊人的智慧。
对我而言,AlphaGo 带来的核心启示,至少在个人层面上,可以追溯到 Richard Sutton 这位强化学习研究领域的大师。他被誉为强化学习研究的先驱,写过一篇经典文章,《苦涩的教训》(The Bitter Lesson)。他在文中强调,如果你正着手构建基于内部启发式原则的系统,那么这些原则很可能被那些能够自主学习的系统所超越。更确切地说,是被那些能够以可扩展方式高效利用计算资源的系统所取代。
他阐述了两种利用计算资源的途径。第一种是学习,即通过训练实现。当我们谈论当今的语言模型时,它们主要通过在互联网上学习来有效利用计算资源。第二种途径是搜索,即运用计算资源来展开并评估一系列行动计划,从而挑选最优解。AlphaGo 正是将这两种理念巧妙融合的典范。我始终坚信,这是 AI 领域最为深刻的思想之一,即结合学习与搜索,是最大化利用计算资源的最优策略。
AlphaGo 的成功,正是这两者结合的结晶,它揭示了产生围棋领域超人类智能体的关键。然而,AlphaGo 的局限性在于其专长仅限于单一领域。我回忆起在强化学习领域那段时期,确实给人一种止步不前的感觉,因为我们的目标是构建具备通用智能的智能体,即超人类的通用智能体。
然而,领域内的进展停留在了超人类但极度狭窄的智能体层面。我们缺乏明确的路径来拓展它们的通用性,因为这些智能体的数据效率极低。若要在单一任务上实现六亿步的训练,那你又将从哪些地方获取足够的数据来覆盖其他所有任务的训练呢?正是大语言模型时代的到来,为我们带来了划时代的突破。
我们可以将互联网上的海量数据视为多种任务的集合。维基百科代表了描述历史事件的任务,而 Stack Overflow 则承载了编程问答的使命,以此类推,将互联网视作一个巨大的多任务数据宝库。有趣的是,我们之所以能从语言模型中获得泛化能力,正是因为它们在本质上是一个经过大量任务训练的系统。
然而,这些任务并不特别聚焦或针对性强,而且在互联网上,缺乏对于可靠性和智能体概念的明确定义。因此,由此产生的语言模型在智能体能力上并不特别突出。它们无疑是令人惊叹的,能完成许多惊人的壮举。但是,智能体面临的一个根本性挑战是,你需要在多个步骤中进行决策,每一步都伴随着一定的错误率。错误会随着时间的推移而积累,这一现象被称为错误累积。这意味着,即使在第一步仅有一定概率的错误,也可能在后续几步中迅速累积至几乎无法在有意义的任务上保持可靠性的程度。
我认为,目前的关键缺失在于,我们已经有了语言模型或利用学习的系统,但它们尚未成为能够以可扩展方式利用搜索或规划的系统。这就是我们需要填补的空白 —— 通用智能体的竞争力尚显不足。因此,我们需要提升它们的竞争力。迄今为止,唯一存在的实证是 AlphaGo,它通过搜索实现了这一目标。
谈智能体(Agent):
我们应当尽可能地将决策权交给 AI 系统本身
主持人:能否进一步分享你最初的灵感来源,你所追求的问题领域,以及你创立 Reflection 的长远愿景?
Misha Laskin:最初的灵感主要源于我和 Ioannis Antonoglou 的密切合作。在 Gemini 项目中,我们并肩作战,Ioannis 主导了 RLHF(基于人类反馈的强化学习)项目,而我负责奖励模型的训练,这是 RLHF 不可或缺的一部分。
我们共同关注的焦点,以及整个行业正在努力的方向是:在预训练之后,对这些语言模型进行调整,使其适用于聊天功能。这意味着,我们为模型进行对齐,以确保它们能为终端用户提供出色的互动体验。
值得注意的是,预训练语言模型具有极强的适应性。因此,凭借恰当的数据组合,我们可以将它们调整为高度互动的聊天机器人。在这一过程中,我们获得了重要洞察:对于聊天功能而言,并不存在特别的处理方法。你所做的,仅仅是收集聊天相关的数据。但如果你为其他能力收集数据,同样能够解锁这些能力。当然,实际情况并非如此简单。在很多方面,情况发生了变化。
我想要强调的是,一个关键区别在于聊天是具有主观性的。因此,用于聊天的训练算法,与用于具有明确目标(如指定任务)的场景的算法大相径庭。当然,随之而来的是一系列挑战。但最核心的是,我们相信现有的架构和模型是有效的。曾经我认为的诸多瓶颈,如今已被计算能力和规模所克服。例如,长上下文长度是我认为需要研究突破才能解决的问题,而现在,所有的同行都在发布具有比我们一年或两年前认为可能的极长上下文长度的模型。这表明,技术的进步正在以前所未有的速度推动我们向前迈进。
主持人:你将智能体描绘为你和 Ioannis Antonoglou 作为研究者心中的梦想,同时也是 Reflection 公司的核心追求。我们不妨暂时停下脚步,深入探讨一下“智能体”这个概念。因为如今这个词已成为 2024 年的热门词汇,且智能体这个词的意义似乎正在逐渐淡化。
最近,人们对某些智能体表现出了极大热情,但它们似乎在达到足够可靠、能成为真正同事级别的智能体方面,依然处于初级阶段。我猜想,你对智能体可能有着更为纯粹和深刻的定义。或许,你能为我们解释一下吗?你是如何界定智能体的含义?你认为我们在通往这一目标的道路上,究竟处于哪个阶段?我们又如何抵达理想中的智能体世界?
Misha Laskin:这是一个值得深思的问题,因为“智能体”这一概念其实在研究界已存在多年。我认为,自 AI 领域诞生以来,这个概念便一直伴随左右,但我主要是在深度学习时代背景下思考智能体的内涵。从 DQN 起步,对智能体的定义其实非常简洁:智能体是一种具备自我推理能力的 AI 系统,它能够自主采取一系列行动,以实现指定的目标。这就是智能体的本质。
而现在,目标的设定方式随时间演变,在深度强化学习时代,目标通常通过奖励函数的形式来设定。例如,在 AlphaGo 中,目标就是判断你是否赢得了围棋比赛。没有人会通过文字指令告知它“去赢下围棋比赛”。这就是人们通常对智能体的认知:在优化奖励函数的过程中寻找最优解。
然而,在语言模型崛起之前,就已经存在一个专门研究目标导向型智能体的领域。这些智能体可能存在于机器人或视频游戏中,你为机器人设定一个目标,比如给它一张苹果被移动到特定位置的图像,要求它复现这个场景。为此,机器人必须在现实环境中行动,拿起苹果并将其移动到正确的位置,以达成既定目标。简言之,智能体就是在环境中自主行动,以实现特定目标的 AI 系统,这正是智能体的核心特征。
主持人:随后我想继续探讨,如果以编程智能体为例 —— 这是智能体领域中近期活动频繁的一个方向,还出现了 SWE-Agent 和 Devin 两款“AI 程序员”应用(详见我们的相关报道),你认为它们所做的事情符合所谓的“智能推理”吗?如果这种推理能够扩大规模,我们是否能实现 AGI?还是说,我们仍需要在强化学习或其他技术探索更多途径,才能实现 AGI?
目前这些“AI 程序员”应用的任务完成率仍徘徊在人类水平的 13% - 14% 左右,所以我很好奇,要怎样才能让它们的完成率提升至99%。
Misha Laskin:它们无疑符合智能体的定义。不过,它们的能力仍在发展中,或许尚未达到高度可靠性的阶段。大多数人如今在谈及语言模型背景下的智能体时,想到的是基于提示的智能体。也就是说,你利用一个模型,对其进行提示,或设置一系列的提示,让模型能够执行任务,从而让任何人能够借助语言模型,从零起步,构建出某种功能。我认为这是非常有意思的。然而,我认为这种方法的潜力有限。
我认为这恰恰是一个例子,展示了《苦涩的教训》是如何适用的。因为引导智能体并严格指示其按特定路径行动,这正是我们植入模型中的启发式算法,我们希望通过这种方式提升智能体的智能水平。我的意思是,自从深度学习时代以来,智能体的每一次重大进步都表明,通过学习和搜索,许多人为设定的规则逐渐被取代。我认为提示的主要作用在于明确目标。因此,你始终需要给出提示。你总得告诉智能体应该做什么。但是,一旦你偏离这一初衷,将提示作为控制智能体行动轨迹的手段,实质上是在代替智能体思考,告诉它 “好了,现在你只需要去这里,执行这项任务。” 我认为这种做法终将被淘汰。我认为这仅仅是我们当前面临的一种过渡现象。未来的系统,我认为将不再依赖于这种方式。
主持人:因此,核心在于,思考与规划都应当在 AI 系统内部进行,而非停留在提示层面,以避免遭遇发展瓶颈。
Misha Laskin:我们应当尽可能地将决策权交给 AI 系统本身。再次强调,这些语言模型从未经过智能体行为的专门训练。它们接受的训练是为了促进聊天交流和预测网络上的事件。能够仅通过提示就让模型展现出一定的功能,这几乎可以称为奇迹。
然而,有趣的是,一旦你能够通过提示让智能体展现出一定的功能,这实际上为强化学习算法提供了最佳的起点。强化学习算法的作用在于强化正面行为,抑制负面行为。如果你面对的是一个完全无所作为的智能体,那么就不存在可以强化的正面行为。因此,算法也就无从发挥作用。这就是所谓的“稀疏奖励问题”。如果你从未触及奖励,也就是说,从未完成任务,那么就没有任何可以从中学习的内容。
但是,如果你已经通过提示让 SWE-Agent 或类似的智能体那样,任务完成率达到了 13%,那么就拥有了一种最低限度的能力,可以借此强化那些真正优秀的性能。
现在,数据成为了我们面临的挑战。我们要从哪里获取训练所需的提示集合?从哪里获取运行这些智能体的环境?虽然 SWE-Agent 自带运行环境,但针对许多问题,你需要自行考虑这些问题。也许最大的难题在于,如何以可扩展的方式验证一项任务是否被正确完成?当你了解任务的来源,通常这源于产品需求,这是可以解决的。在哪里运行它们?要采用什么算法?但真正的问题在于,如何选择运行环境?更为关键的是,如何以可扩展的方式验证任务是否正确完成?我认为,这就是打造智能体的秘诀所在。
主持人:我觉得这确实触及到了当今智能体领域核心的问题所在。为了稍微铺垫一下 Reflection AI 公司正在努力解决的问题,你如何看待当前智能体市场的大体状况呢?我认为许多人往往高估了我们现有模型的能力。那么,你认为问题出在哪里?你为什么认为当前围绕智能体的各种尝试未能达到我们今天的期望?
Misha Laskin:我们可以从一个角度来定义或分类所谓的“AGI”,或许我将使用“泛化智能”这一术语,因为“泛化”这个词在这里指的是能力的广度。因此,一个真正的泛化智能不仅需要具备广泛的应用范围,能够执行多样化的任务和处理各种输入,同时它还需要在任务的深度上有所建树,即能应对高度复杂的任务。
AlphaGo,这个在围棋领域击败人类顶尖高手的著名 AI,可能是迄今为止构建的最专业的智能体。然而,它的专长仅限于围棋,无法触及其他游戏,如井字游戏。
相比之下,当前的系统,诸如 Gemini、Claude、ChatGPT 等语言模型,则呈现出另一种趋势。它们在任务的广度上表现得异常出色,但在深度上则显得力不从心。它们在众多领域展现了惊人的多功能性,这无疑是一项奇迹。曾经,我们在这个领域中似乎找不到通向泛化智能的明确路径,而现在,这些模型的出现为我们指明了方向。
但我们目前正处于光谱的另一端,即在广度上取得了显著进展,尤其是在最新一代的模型如 GPT-4o 和最近的 Gemini 系列模型中,这些模型具备了多模态理解能力,它们能在同一层面理解和处理图像、音频等多种信息,就像它们理解语言一样。
这就是所谓的“广度”。但在整个过程中,深度这一关键点却未得到充分重视。互联网缺乏关于连续思考过程的真实数据。为了弥补这一缺陷,研究者们尝试在具有类似结构的数据集上进行工作,如数学、编程数据集,希望通过这些数据集提升模型的逻辑推理能力,即模型是否能够解决数学问题。然而,即便如此,这依然没有从根本上解决深度问题。我认为我们需要一套方案,一种能够普遍适用于各种任务类别的方法,通过大量的训练数据,使语言模型在特定任务上逐步增强其能力。
在我看来,现在迫切需要的是解决深度问题。尽管整个领域,尤其是大型实验室,已经取得了在广度方面的巨大突破,这确实令人振奋,也为市场带来了诸多实用价值。但同时,深度问题的解决也同样重要。
后训练阶段的三道核心难题
主持人:接下来深入探讨一下你与 Ioannis 在 AlphaGo、AlphaZero 及 Gemini 项目中的独到见解,以及后训练阶段和数据在其中扮演的重要角色。能否分享一下这些经验是如何塑造你独特的视角,从而揭示出通往高效智能体能力的道路?
Misha Laskin:语言模型给我带来的惊喜之一在于,它们与目标之间往往只有一步之遥 —— 即便它们并非完全专注于你所期待的任务,但实际上它们似乎只需稍加引导就能发挥更大的作用。语言模型需要在实际情境中找到更牢固的立足点,而这一洞察引领它们在聊天领域展现出卓越性能。你可以与它们交流,尽管它们偶尔会显得不够可靠,有时会偏离正轨,但它们几乎能成为理想的聊天伴侣。由此,引出了一个关键问题:如何将预先训练的语言模型转化为稳定可靠的聊天助手?
这里所谓的“稳定”,衡量标准在于用户偏好:与这类聊天助手互动的人们是否更倾向于选择它,而非其他聊天助手或其早期版本?如果当前版本相较于过去几个迭代版本更受用户喜爱,那就可以肯定模型已经取得了进步。而这一进步源于数据的收集。具体来说,就是收集用户在聊天窗口中输入的各类查询,模型产生的回应,以及对这些回应进行的有效排序,从而促使模型更倾向于产出用户更青睐的回应。
当我们谈及排序,这个排序机制又是如何形成的呢?它源自人类。可能是由人类标注员完成,或者直接嵌入产品设计之中。你可能曾在 ChatGPT 中见过“点赞”或“踩”的选项,它会收集你的反馈,以此了解你的喜好倾向。
这些数据被用于调整模型,使其更加符合用户的偏好。这是一种极为通用的算法,属于强化学习的一种,因此被称为 RLHF(基于人类反馈的强化学习)。这仅仅是在增加那些被人类反馈所偏爱的事物的权重。我们没有理由认为,同样的方法不能用于培养更可靠的智能体。
当然,还有许多其他挑战亟待解决。我认为之所以如此艰难,原因在于一旦涉足智能体领域,面临的挑战远远超过简单的语言输出。智能体需要与各种工具互动。比如,无论是发送电子邮件,还是在 IDE(集成开发环境)中工作,智能体在任何环境中执行任务,都需要借助工具。它依赖于环境的存在。每位部署智能体的人士都会将其置于不同环境中。因此,如何与这些环境无缝对接,以及如何将智能体成功引入这些环境,构成了巨大的挑战。
我认为这就是为何涉足这一领域的工作会显得有些吃力。我们必须谨慎对待环境的选择,以及构建智能体的方式。因为我们不想让智能体过于依赖某一特定环境。从概念上来讲,这与为聊天目的调整模型的过程相似。只是在过程中,还需要克服一些额外的集成障碍。
主持人:既然你把 AlphaGo 看作是智能的里程碑,我想你正在努力用大语言模型(LLMs)复刻出一个“AlphaGo 时刻”。那么,你认为两者之间有什么差异?在我看来,围棋这类游戏有着清晰的奖励机制,能够自我博弈,就像 RLHF 一样。你认为这足以让我们在大语言模型领域实现 AlphaGo 那样的突破吗?或者,我该如何理解两者间的不同之处?
Misha Laskin:我认为你说的缺乏真实奖励作为标准是关键所在,或许这是最核心的一点。我们从以往的强化学习研究中得出,如果拥有一个真实可靠的奖励信号,就几乎可以确保成功。许多令人瞩目的项目已经证明了这一点,它们以前所未有的规模展现了这一成果。
除了 AlphaGo 之外,还有 DeepMind 的 AlphaStar。AlphaStar 可能对于非游戏玩家而言有些陌生,但作为曾经的《星际争霸》玩家,AlphaStar 给我的震撼至今犹存。AI 在当时展现出的策略,就像是一个比我们更加智慧的外星人,在地球决定玩一局游戏,然后彻底超越了人类的表现。
这一切的背后,存在着多种因素,但真实奖励的设定对于精准行为控制至关重要。如今,不论是人类的喜好或是智能体的决策,我们都缺乏这样的基准。这些都是广泛而模糊的目标,我们没有确定某事是否达成的标准。例如,对于编程任务,如何界定它是否正确完成?即使它通过了一些单元测试,也可能存在缺陷。这是一个极其复杂的问题,我认为这是智能体领域面临的核心难题。当然,还有其他挑战,但这无疑是最大的障碍。对于聊天机器人而言,绕过这个问题的方式再次是通过 RLHF,即训练奖励模型。
奖励模型是一种语言模型,它预测某项任务是否被正确执行。尽管这种方法行之有效,但挑战在于,当没有确切的基准时,面对不完美的数据,它可能产生偏差。
人类的策略,也就是智能体,很快就会变得足够聪明,发现奖励模型中的漏洞并加以利用。举个例子,在聊天机器人中,假设你发现它输出了一些不当内容,或者有些话题它不应该涉及,因为它们可能很敏感。于是,你在训练数据中加入了相关示例,其中聊天机器人会说:“抱歉,作为语言模型,我无法回答这个问题。”
然而,用这些数据训练的奖励模型,可能只看到了这类情况的正面效果,而没有考虑机器人实际回答敏感问题的情形。这就意味着,奖励模型可能误判,认为永远不回答用户的提问是正确的选择。因为它的学习只基于不回答问题的正面案例。当你依据这个模型训练时,策略或语言模型会在某个阶段变得足够智能,意识到只要不回答问题就能获得高分,不论何时回避问题,都能得到高评价。最终,它可能退化成一个永远不回应你问题的语言模型。
这正是这一过程的微妙之处,也是难点所在。我确信,许多与 ChatGPT 或 Gemini 这类模型互动过的用户,在实际使用中可能发现了它们有时会出现退步。它们突然不再像之前那样频繁回答问题,某些方面的能力下降,或者表现出政治立场的偏颇。我认为,这些问题很大程度上源于数据的局限性,而这些局限性被不良的奖励函数放大了。因此,我认为这是当前面临的最大挑战。
主持人:如果我们将大模型训练流程或大型 AI 系统训练流程的概括为「预训练」(Pre-Training)和「后训练」(Post-Training)两个阶段,我认为预训练阶段在很大程度上已经取得了突破,就像是我们已经掌握了核心技术,现在正处于竞速扩大规模的阶段。
而后训练阶段仍然更像是处于探索期,大家仍在尝试寻找那些能在总体上奏效的技术。我想知道,你是否认同这样的观点。在一个理想的状态下,预训练主要承担什么任务?我们应该如何理解它?后训练又扮演着怎样的角色?我们应当怎样像给五岁孩子讲故事一样,简单地解释这一点?
Misha Laskin:我赞同你的看法,预训练确实已经发展成为一个包含诸多细节的复杂工程,绝非轻而易举。这是一项充满挑战的任务,但到了现阶段,它已经成为了一个相对成熟的领域。我思考预训练的一个方法是,把它与 AlphaGo 相比,这样理解起来既直观又清晰,因为它不是让你去想象那个庞大的互联网概念,而是聚焦于一个具体且干净的场景 —— 这个游戏本身。
我们可以将 AlphaGo 视为经历了两个阶段。
首先,它经历了一个模仿学习阶段,神经网络在此阶段模仿了众多围棋高手的精湛技艺。随后进入强化学习阶段。我们可以把预训练看作是 AlphaGo 的模仿学习阶段。在这个阶段,模型仅仅是学会了游戏的基本玩法。这时,模型的神经网络可能还称不上世界顶尖,但它已经具备了一定的实力。它从一无所知到逐渐掌握技巧,实现了质的飞跃。对于语言模型而言,预训练就是从零开始,在各个领域逐渐达到一定的熟练度,这也正是它威力无穷的原因所在。
至于后训练阶段,我认为它扮演的角色是巩固和优化良好行为。具体来说,在 AlphaGo 的训练中,模型首先进行模仿学习,从一个能够完成基础任务的起点开始,也就是说,模型有了一个能够进行游戏的神经网络。然后,模型将另一个关键步骤——强化学习应用到这个网络上,让网络能够自主制定计划,通过游戏实践来获取反馈,好的行为得以强化。这正是我所说的后训练,
从聊天机器人的角度来看,这是在不断加强模型在对话方面的良好表现。有趣的是,训练 AlphaGo 和训练 Gemini 的高级策略实际上是相通的,非常奇妙。现在大多是先经历模仿学习阶段,接着是强化学习阶段。与我们现在拥有的这种方式相比,AlphaGo 的强化学习阶段显然更为精妙,而这背后的原因在于奖励模型的性质。如果奖励模型存在噪声且容易被策略利用,那么在策略变得足够智能并找到绕过它的方法之前,你能做的其实十分有限。因此,即使你运用了最先进的强化学习算法,比如 AlphaGo 中采用的蒙特卡洛树搜索,其效果可能并不显著,因为策略会在算法有机会进行深入探索之前,就找到了奖励模型的漏洞,导致策略陷入一种低效的状态,即策略仅仅学会了如何“欺骗”奖励模型,而没有真正提升自身能力。
设想一下,在下棋时,你试图提前规划几步走法,但如果每一步的判断都有偏差,那么提前规划十步其实是没有意义的。我认为,这正是我们在 RLHF 中所面临的现状。
有一篇我认为被严重低估的重要论文,题目叫做“奖励模型过度优化的扩展规律”。这是来自 OpenAI 的一篇研究论文,专门探讨了这一现象。有趣的是,它揭示了这一问题在各种规模上都普遍存在。我的意思是,在那篇论文中,他们尝试了多种不同的 RLHF 算法,无论哪种算法,这种现象都无一例外地出现了。我认为这是一篇极具价值的论文,因为它触及了后训练阶段的核心难题。
论文链接:https://arxiv.org/pdf/2210.10760
主持人:如果参考 AlphaZero 的成果,那我们或许根本无需预训练。这样的结论是否恰当?
Misha Laskin:我认为,至少依据我的理解,AlphaGo 的模仿学习阶段是不可或缺的,主要是出于实用性的考量。当 DeepMind 从 AlphaGo 过渡到 AlphaStar 时,并没有出现 AlphaStar 的 AlphaZero 版本,后续也没有推出 AlphaStar Zero 或类似的项目。AlphaStar 的一个重要组成部分,是跨越众多游戏的模仿学习。我认为,AlphaGo 之所以特殊,不仅因为它是一个零和游戏,而是因为围棋能够较快地结束游戏进程,从而及时获得反馈,判断行动是否得当。
主持人:看来,这是一个范围过于宽泛的问题,无法直接套用到所有情况。
Misha Laskin:是的,如果在所有领域都存在真实可靠的奖励函数,AlphaZero 理论上能够全面适用。然而现实中没有这样的条件,所以需要先开展模仿学习阶段。
离职创业的原因:
“AGI 还有三年到来,紧迫感促使了我们离开”
主持人:你之前强调了从技术层面把智能体置入环境之中的重要性。而从产品分发推广到用户的角度,思考用户首次与智能体互动时适合的任务类型也很关键。在你心里,都有哪些任务类别呢?你觉得用户在日常工作中该怎样运用这些代理的潜力?
Misha Laskin:如果你(假设“你”是一名产品经理)想在深度方向取得进展,可以首先尝试 AlphaGo 这样的硬骨头,这是一个非常艰难的事情。我建议以同心圆的方式,在你能够处理的任务的复杂程度上向外拓展。我们专注于实现深度赋能,并且是以这种同心圆的方式。我们非常在意拥有一个通用的方案,它不会继承某些特定任务特有的启发式方法。所以从研究的角度来说,我们正在为此构建通用方案。
现在,你必须把这些方案落实到具体事物上,以展示其进展。至少对我们而言,展示环境的多样性很重要。所以我们正在考虑多种不同类型的智能体,比如网络智能体、编码智能体、操作系统计算智能体。对我们来说,重要的是展示自己能够拥有为智能体赋能的通用方案。
主持人:话题稍作转变,你们正在寻找哪些人才加入团队?
Misha Laskin:确实,我们很幸运能够从行业内顶尖的人工智能实验室吸引到一些人才。这很大程度上得益于 Ioannis 和我所做的工作,但更多的荣誉应归于 Ioannis 和他的声誉。
就像我观看的迈克尔·乔丹的纪录片中所展现的,迈克尔·乔丹之所以如此高效,一个关键原因在于他作为个人对比赛的杰出贡献,他是历史上最出色的篮球运动员,(即使队友们无法完全达到),他也还是激励了队友们去达到自己的高度。
Ioannis 对科技圈的人就有这种激励效应。在 Gemini 项目中,我和他密切合作,他对我产生了同样的影响。尽管我不确定自己是否能达到 Ioannis 的水平,但我一直向往着,这一过程无疑使我成为一名更优秀的工程师和研究者。我认为这就是吸引众多人才加入的原因之一:你可以从他身上学到很多。我们主要仍在持续寻找人才,我们的招聘步伐并不急促,而是采取更为审慎和系统的方法。
我们正积极招募其他研究人员和工程师加入我们,共同推进这项使命。我想说,所有加入我们的人都有一个共同的特点,那就是我们都怀揣着强烈的渴望,也许可以用“热忱”来形容。我们本可以留在 DeepMind,继续推动智能体技术的发展,但我认为我们选择自行创业的根本原因,在于我们相信这样可以更快地取得进展,更迅速地应对挑战。这种紧迫感源于我们坚信一个事实:距离实现类似 AGI 的目标,仅剩大约三四年的时间。
我所说的 AGI,指的是通用智能体,即具备广博且深厚知识体系的实体。这意味着我们正处于一个异常加速的进程之中。这种紧迫感也部分源于 AlphaGo 案例的启示。AlphaGo 曾让领域内的专家怀疑,人类水平或专业级的围棋竞技还需数十年才能实现,然而 DeepMind 却在短短数月内就取得了突破性进展。我认为我们在语言模型领域也见证了相似的加速趋势。
有些人可能会持有这样的观点,认为我们已触及了所能达到的极限,正处在S曲线的末端,但我们并不认同。我们认为,我们仍处于指数增长的阶段。其中一个重要原因是,这些模型过于庞大且训练周期漫长,以至于整个研究和工程界尚未对其进行充分优化。若要运行最大的模型,需要耗费数月时间及数十亿美元,那么你能实际执行的实验数量究竟有多少呢?因此,我们观察到事物正以前所未有的速度发展,我们认为解决深度理解和可靠性的问题并未获得应有的重视。
在那些大型企业中,确实存在一些团队将其视为边缘任务,但我认为,解决这一问题需要一个全心投入的实体。
主持人:说到 DeepMind,那么再过三年,我能拥有一个替我写备忘录的智能助手吗?
Misha Laskin:但愿如此。
主持人:三年以内。
Misha Laskin:是的,我其实认为备忘录的自动化可能会来得更快。
主持人:这是我最关心的问题之一。这到底是几十年后的愿景?还是几个月后就能实现?听你这么一说,好像你们距离实现它只有几个月到几年的时间了。
Misha Laskin:我觉得是几年之内。说实话,这个领域的进步速度真的让人有点吃惊。在深度和可靠性方面,也是如此,我的意思在于,可靠性就意味着安全性。所以你希望这些系统是安全的。我认为有很多非常有趣的研究,例如 Anthropic 近期发布的一篇关于机制可解释性(mechanistic interpretability)的论文,那一系列的研究方向确实很有意思,而且我认为它已经开始显示出一定的实用价值,比如在模型中识别并抑制那些“Lie Neurons”,或是其他你想要控制的元素。但在我看来,安全性就是可靠性。
论文链接:https://www.anthropic.com/research/mapping-mind-language-model
如果某个程序在你的电脑上四处乱窜,破坏各种事物,那就意味着系统的不安全。或许这可以被视作一种功利主义的安全观,即你只希望这些系统能稳定工作,按照你的意图行事,而不是违背你的意愿。
主持人:这么说,除了写备忘录,我还有几年的时间去找一个新的兴趣爱好。
Misha Laskin:是的,或者也许你会有一支由 AI 组成的实习生队伍,他们能帮你完成所有研究工作。
主持人:我迫不及待想看到这一天。回到 Reflection AI 这家公司,如果一切进展顺利,你对 Reflection AI 有着怎样的憧憬?
Misha Laskin:这个问题可以从两个角度来看。首先,我们之所以投身于此,是因为这是当前时代科学的核心难题。我们是科学家,这也是我们对此充满热情并全情投入的原因。
事实上,你有机会参与一场可能是史上最激动人心的科学探索之旅,达成构建通用智能体的目标。你拥有了在电脑上运行的高度安全、可靠的数字代理。它们能够承担起那些乏味的工作,那些你未必想亲自处理的任务。
你可能会想,这是否意味着人们将不必投入太多时间在工作上。但我不认为人类对于创造和贡献的需求会改变。我认为,每个人能够创造和影响世界的能力将会显著提升。
以我的工作为例,作为一名研究人员,有许多我花费时间去做的事情,而一个更为智能的 AI 可以协助我加速达成我们的目标。这听起来有点像是循环论证。但如果我们的 AI 接近于真正的数字 AGI,我们将能更快地解决数字 AGI 问题。这是一个角度。
我认为另一个角度则是从用户的角度出发。我们在电脑上执行的很多操作,你可以把电脑看作是我们接触的第一款数字工具,就如同过去人们使用的锤子、凿子和镰刀一样。我认为我们正迈向超越这一层面的阶段,不再需要你去学习如何精准地使用所有这些工具,也不必花费大量时间在上面,这实际上是在剥夺你实现个人目标的时间,而是有了这些极为有用的代理,
它们能协助你实现任何你设定的目标。我认为这十分令人振奋,因为我认为我们个人目标的雄心正在不断膨胀。在局部意义上,软件工程师现在借助这些工具可以完成更多工作。
但这仅仅是开端。我认为我们将能够为自己设定更为宏伟的目标,为想要实现的事物设定更高的标准。仅仅因为我们能够将许多必需的工作委托给这些系统。因此,这些是我真正感到兴奋的方面。
离职创业的原因:
“AGI 还有三年到来,紧迫感促使了我们离开”
主持人:我们用几个问题来收尾,这些问题是我们喜欢向每位嘉宾提出的,关乎人工智能的现状。首先,对于未来一年、五年乃至十年,你在自己的领域内,或是更广泛的人工智能领域中,最期待的是什么?
Misha Laskin:我有许多期待的事情,但最先浮现在脑海的是最近有关机制可解释性的研究工作。AI 模型往往被视为黑箱,如何深入探索,就像理解语言模型的神经科学,如果将它们比作大脑,这仍然是一个未解之谜。这项研究正展现出前所未有的进展,它不再局限于简单的实验环境,而是触及到模型核心的运作原理。
可以说,这正是语言模型的神经科学,我觉得这是一个非常吸引人的研究领域,值得我们深入挖掘。更广泛地讲,如果我置身于学术圈,我可能会专注于人工智能的科学研究。这包括人工智能的神经科学,但远不止于此。还有许多其他领域值得探索,比如,究竟哪些因素真正决定了模型的扩展规律,无论是从理论角度,还是从实践层面,我们如何调整数据组合?也许我们可以将视角拉回到 19 世纪末的物理学时代。那时,电力被发现,但其背后的原理尚不明晰,尽管存在大量的实证结果,却没有相应的理论框架来支撑,导致理解上的局限。随后,一系列简洁而有力的理论模型应运而生,它们极大地促进了现象的理解。
这一过程激发了后续的实验突破。在我看来,人工智能科学目前正处于相似的转折点,我对它的未来发展充满期待。这真是一个引人入胜的话题。
主持人:在人工智能领域,你最敬仰的人物是谁?
Misha Laskin:当面对这类问题时,多数人或许会立刻提及某个响亮的名字。但我想强调的是,我所真正敬佩的人,是那些我有幸共事,并且见证了他们工作方式的人。在人工智能领域耕耘多年,有几位这样的人物深深触动了我。其中一位便是 Peter Abbeel,他以超凡的效率运营,这一点自我们相识以来便给我留下了深刻印象。
研究工作往往被视为一种创意的追求,但 Peter 教会了我,运营能力和效率同样至关重要。他不仅极具创新精神,他的实验室也孕育了诸多创新成果。然而,我认识到,这些伟大成就的背后,需要的不仅是全力投入,更是高度的专注和努力。他以我所经历过的最紧凑的时间表,管理着实验室,确保每个项目都能得到精准聚焦。
因此,我对他怀有深深的敬意,不仅仅因为他的工作跨足多个领域,从强化学习到无监督学习、再到生成建模,他都取得了非凡的突破。更重要的是,他拥有识别并培养人才的独特能力。在他的实验室中,汇聚了一群独立思考者 —— 学生、博士生,每个人都致力于追求自己的兴趣,而彼得就像是一个杰出的催化剂,帮助他们发现并专注于真正重要的核心。
我还想提及另外两个人,其中一位是我的 DeepMind 经理,Vlad Mnih。他不仅是一位杰出的科学家,更是一位极具创新力的领导者,作为 DQN 论文的第一作者,他定义了强化学习的两大算法,A2C 和 A3C。在深度强化学习领域,他既是先驱,也是开拓者。他的力量在于他的仁慈与以人为本的态度,尽管成就斐然,却保持着谦逊的品质。Ioannis Antonoglou 亦是如此,他具备如同迈克尔·乔丹般的激励力量,与他共事,总能激发出个人最佳的表现。
早期的团队虽小,但成员们为了共同的目标而不懈努力,这一切很大程度上归功于 Ioannis 的鼓舞与引领。这些人是我真正敬仰的榜样。感谢你让我有机会分享这些故事。
主持人:听到你对每个人说的话,真是太有趣了。我常跟 Peter Abbeel 说,他近几年就像是在创建一个创始人黑手党,而他自己是“教父”。这可能是因为他教会了他们如何做很多事情,同时,这里存在着一种自我筛选的过程,那些富有创意和独立思考者自然而然地聚集在他的实验室。但他同时也教会了他们如何高效运营,如何保持极度专注。这绝非偶然,而是他有意为之的布局。
最后一个问题。对于正在创建人工智能公司的创始人,你有哪些建议?你刚刚踏上新的征程,我相信你也曾向他人寻求过指导。你会向新一代创业者传递怎样的建议?
Misha Laskin:我认为,几年后,我将能站在更高的位置,给出更有深度的答案。不过,我可以分享我在前一次创业中学到的一课,那家初创企业与人工智能无关。那就是,专注于那些对你而言真正重要的内部驱动力,几乎不被外界环境所左右。即使在遭遇困境时,你仍能找到乐趣,因为围绕这个问题,有一种源自内心的驱动力,独立于外部世界的一切。而这对你来说,就是真正的兴趣所在。
我之所以这样讲,可能是因为人工智能如此迷人,高度发达,是一项前沿科技。因此,有人想要直接利用它,探索我们能达成的极限。我认为,如果没有一个坚定的内心指南针,独立于人工智能之外,你永远无法在艰难时刻找到自己的方向。也就是说,你需要清楚对你而言什么是最重要的,你想要实现什么。基于我以往的经验,这是我会选择不同做法的地方,也是我愿意给予的建议。
主持人:我非常欣赏你的见解。我常常思考的一句话是,在自己的舞台上绽放光彩,不要被别人舞台上的华美和光芒所迷惑。你需要那种发自内心的激情和坚韧,对钻研问题的痴迷,才能度过所有艰难的时刻。
Misha Laskin:是的。我认为这其中蕴含着更深层次的意义,如果你真的关心某个问题,你也会关心你正在为之服务的客户。如果不在乎你的客户,将使你陷入困境。所以,我认为这种情感必须源自内心深处,这不是你可以随意控制的,比如你关心谁,不关心谁。这是一种个人的情感选择。如果它与你内心的意愿不相契合,你就无法强迫自己出于必要去关心某件事。
参考资料:https://www.sequoiacap.com/podcast/misha-laskin-reflection/#mentioned-in-this-episode