天天看点

深度|SIGGRAPH 2024 黄仁勋 & 扎克伯格最新对谈:信息流与推荐系统值得用生成式 AI 重做一遍

在SIGGRAPH 2024大会上,英伟达CEO黄仁勋与Meta创始人兼CEO扎克伯格的深入对谈,为我们揭示了生成式AI在信息流和推荐系统中的应用前景。这场对话不仅涵盖了AI技术的前沿发展,还深入探讨了虚拟世界和机器人技术的创新突破。本文将带你走进这场科技盛宴,一探究竟。
深度|SIGGRAPH 2024 黄仁勋 & 扎克伯格最新对谈:信息流与推荐系统值得用生成式 AI 重做一遍

7 月 30 日早上 6 点,英伟达 CEO黄仁勋与 Meta 创始人&CEO 扎克伯格在 SIGGRAPH 2024 上展开了对谈,共同探讨了加速计算、生成式 AI 以及推动下一波创新、虚拟世界和机器人技术突破的研究。

黄仁勋强调了英伟达在计算机图形学、图像处理、AI 和机器人技术方面的领导地位,特别是在 AI 与模拟交叉领域的突破。

他提到,英伟达通过 AI 帮助模拟变得更大规模、更快,并利用模拟环境生成合成数据。这些技术的结合,正在推动 AI 与模拟技术的融合发展。

扎克伯格指出,未来的 AI 将不仅用于内容推荐系统,还将用于即时内容生成和从现有内容中整合新内容,这将彻底改变 Instagram 和 Facebook 等平台的信息流和推荐系统。

扎克伯格还表示,智能眼镜将成为下一代计算平台的移动版,而混合现实头戴设备则更像是工作站或游戏主机,Meta与 EssilorLuxottica 合作,推出了集成摄像头、麦克风和 AI 对话功能的 Ray-Ban 智能眼镜……

以下是这次对谈快速整理的内容,enjoy~

Jensen Huang

你知道吗?90% 的博士生。所以, SIGGRAPH 的真正伟大之处在于,这是计算机图形学、图像处理、 AI 和机器人技术相结合的展示。一些公司多年来在这里展示和揭示了惊人的东西,从迪士尼、皮克斯、Adobe、Epic Games,当然还有 Nvidia ,我们在这里做了很多工作。今年,我们在 AI 和模拟的交叉点上介绍了20篇论文。我们正在利用 AI 来帮助模拟变得更大规模、更快,例如可微分物理学。我们使用模拟来创建合成数据生成的模拟环境,用于 AI 。

所以这两个领域真的在结合起来,我们为我们在这里所做的工作感到非常自豪。在 Meta ,你们做了很多了不起的 AI 工作。我觉得有趣的是,当媒体写关于 Meta 在过去几年跳入 AI 领域时,好像 FAIR( Meta 的 AI 研究实验室)一直在工作,我们都在使用 Meta 的PyTorch,你们在计算机视觉、语言模型、实时翻译方面的工作都是开创性的。我第一个问题是,你如何看待 Meta 今天在生成式 AI 方面的进展,以及你如何应用它来增强你的运营或引入你提供的新功能?

Mark Zuckerberg

这里有很多东西要解读。首先,很高兴来到这里。Meta 已经做了很多工作,并且在 SIGGRAPH 已经有八年了。所以,我的意思是,我们相比你们是新来的。但那是在 2018 年。

我们展示了我们 VR 和混合现实头戴设备的一些早期手部追踪工作。我想我们已经谈了很多关于我们在 Codec Avat AR s 方面的进展,这些是我们希望能够通过消费级头戴设备来驱动的照片级逼真的化身,我们离这个目标越来越近了,所以对此非常兴奋。还有我们在显示系统方面所做的大量工作。

因此,我们展示了很多未来的原型和研究,以便使混合现实头戴设备能够非常薄,但具有相当先进的光学堆叠和显示系统,集成系统。通常这些是我们第一次在这里展示。所以,来到这里很兴奋。这里我不仅在谈论元宇宙的东西,还有所有的 AI 部分,就像你说的,当我们开始 FAIR( AI 研究中心)时,那时候还是 Facebook ,现在是 Meta ,在我们开始现实实验室之前,我们已经在这方面工作了一段时间。所有关于生成式 AI 的东西,这是一个有趣的革命。

它最终会使我们所有的不同产品以一种有趣的方式发生变化。所以,我可以列举一下,我们已经拥有的主要产品线。像是 Instagram 和 Facebook 上的信息流和推荐系统,我们已经在这个旅程中,从只是关于与你的朋友联系开始。排名总是很重要,因为即使你只是关注朋友,如果有人做了一些非常重要的事情,比如你表弟生了孩子,你希望它出现在顶部。如果我们把它埋在你的信息流中,你会很生气。

所以排名很重要,但在过去几年中,它变成了更多的是来自不同的公共内容。推荐系统非常重要,因为现在,不仅仅是几百或几千个来自朋友的潜在候选帖子,还有数百万条内容。这变成了一个非常有趣的推荐问题。随着生成式 AI 的发展,我们很快会进入一个区域,不仅是你今天在 Instagram 上看到的大部分内容是来自世界各地与你的兴趣匹配的推荐内容,而不管你是否关注那些人。

未来很多东西都会使用这些工具来创建。有些是创作者使用工具来创建新内容,最终会是为你即时创建的内容,或者是从不同的现有内容中整合和合成的内容。所以,这只是一个例子,说明我们所做的核心部分将如何演变。而这已经在过去20年中不断演变。

Jensen Huang

人们会意识到,世界上最大的计算系统之一是推荐系统。

Mark Zuckerberg

但这是一个完全不同的路径。它不是那种人们谈论的生成式 AI 的热点,但就像所有的 Transformer 架构一样,它是一个类似的事情,只是建立越来越多的通用模型,将非结构化数据嵌入特征中。

我的意思是,一个驱动质量改进的重要因素是,你过去有不同的模型来处理不同类型的内容。最近的一个例子是,我们有一个模型来排名和推荐reels,另一个模型来排名和推荐更长的格式的视频。然后需要一些产品工作,使系统能够显示任何内容在一行中。但你创建越通用的推荐模型,它们就会越好。

所以,我的一部分梦想是,有一天,你几乎可以想象所有的 Facebook 或 Instagram 都是一个单一的 AI 模型,它统一了所有这些不同类型的内容和系统,实际上有不同的目标在不同的时间范围内。一部分是展示你今天想看的有趣内容,另一部分是帮助你长期建立你的网络,比如你可能认识的人或你可能想关注的账户。

Jensen Huang

这些多模态模型在识别模式、弱信号等方面往往表现更好。所以有趣的是, AI 在你们公司如此深入,你们一直在构建 GPU 基础设施运行这些大型推荐系统。

不过一旦你开始进入这个领域,你就会深入其中。你深入其中,并且非常投入。如今,当我使用 WhatsApp 时,我感觉自己在与 WhatsApp 合作。我喜欢想象,当我打字时,它会生成图像。我回过头来改变我的话语,它又会生成其他图像。

Mark Zuckerberg

那是上周的事情。非常兴奋。现在想象一下我,花了很多时间和我的女儿们在一起,想象她们是美人鱼,过去一周里一直很有趣。我的意思是,这就是另一半。许多生成式 AI 的东西,一方面,它将成为所有我们长期以来的工作流程和产品的重大升级。

但另一方面,这些完全新的东西现在可以被创造出来。所以, Meta AI 的想法是拥有一个 AI 助手,可以帮助你完成我们世界中的不同任务,并且非常具有创造性。像你所说的那样。它们非常通用。所以你不需要仅限于此。它将能够回答任何问题。

随着时间的推移,当我们从 Llama3 模型进化到 Llama4 及其后续版本时,它会感觉不再像是一个聊天机器人,你给它一个提示,它就会回应,然后你再给它一个提示,它再回应。而是你给它一个意图。它实际上可以在多个时间框架内工作。,它会预先承认你给了它一个意图。我的意思是,有些事情,会启动计算任务,这些任务可能需要几周或几个月才能完成。然后回来告诉你发生了什么事情,这将会非常强大。

Jensen Huang

今天的 AI ,正如你所知,是有些单调的。你说点什么,它就回你点什么。但显然,当我们考虑一个任务或问题时,我们会思考多个选项,或者也许我们会提出一个决策树,并沿着这个决策树走,模拟在我们心中,每个决策可能产生的不同结果。所以,我们在做计划。将来, AI 也会这么做。当你谈到你的创造者 AI 愿景时,我感到非常兴奋,这是一个非常棒的想法。告诉大家关于创造者 AI 和 AI Studio 的情况吧。

Mark Zuckerberg

其实,这正是我们所谈论的,今天我们将其推出得更广泛。我们的愿景是,我不认为只会有一个 AI 模型。这是行业中一些其他公司在做的事情,他们在构建一个中央 Agent 。我们会有一个可以使用的 Meta AI 助手,但我们的愿景是我们希望赋能所有使用我们产品的人,让他们为自己创建 Agent 。

这就是平台上许多的创造者或数以百万计的小企业。我们最终希望能够快速整合你们的所有内容,并快速创建一个商业 Agent ,可以与客户互动,进行销售和客户支持。我们现在刚刚开始推出的是我们称之为 AI Studio 的东西。它基本上是一套工具,最终将使每个创造者能够建立一个自己的 AI 版本,作为他们社区可以互动的 Agent 或助手。

这里有一个基本问题,那就是时间不够用。如果你是一个创造者,你想更多地与社区互动,但时间有限。同样地,你的社区也希望与你互动,但时间有限。所以,下一步就是让人们能够创建这些人工制品。它是一个 Agent ,你将它训练成代表你,以你希望的方式表现。这是一种非常创造性的工作,几乎像是一件艺术品或内容,你在发布出去。

当然,很明显它不是在与创造者本人互动,但这将是另一种有趣的方式,就像创造者在这些社交系统上发布内容一样,能够有 Agent 做同样的事情。同样地,将会有一种情况,人们基本上为各种不同的用途创建自己的 Agent 。有些是定制的实用程序,他们想要完成的任务,他们想要微调和训练 Agent 。有些是娱乐,某些人创造的东西只是搞笑和不同方式的搞怪,或带有一种有趣的态度,这些可能我们不会在 Meta AI 作为助手中构建进去,但人们对此非常感兴趣,想要与之互动。

然后,一个有趣的用例是人们使用这些 Agent 进行支持。这让我有点惊讶的是, Meta AI 的一个主要用例是人们基本上用它来模拟社交场景,不论是专业场景,例如“我想向经理询问如何获得晋升或加薪?”或者是和朋友的争执,或者是和女朋友的困难情况,模拟这种对话,看看对话会如何进行,并获得反馈。

很多人不想与同一种 Agent 互动,不论是 Meta AI 还是 ChatGPT 或其他人使用的东西。他们想要创建自己的东西。这就是 AI Studio 的大致方向。但这都是我们更大愿景的一部分,我们认为不应该只有一个大 AI 让人们互动。我们认为如果有各种不同的东西,世界会更好、更有趣。

前 a16z 合伙人:ChatGPT 从科研到 1 亿用户可能是陷阱,硅谷的集体押注需要传统市场迈过 PMF。

Jensen Huang

你可以变得非常酷。如果你是一位艺术家并且有自己的风格,你可以把你的风格、你所有的作品,微调一个模型。

Mark Zuckerberg

然后这就变成了一个可以进行提示的 AI 模型。

Jensen Huang

你可以让我创作一些符合我艺术风格的东西。你甚至可以给我一幅画作为灵感,我可以为你生成一些东西。你来找我的 AI 做这些。将来每个餐厅、每个网站可能都会有这些 AI 。

Mark Zuckerberg

我觉得将来每个企业都会像有电子邮件地址、网站和社交媒体账号一样,拥有一个 AI Agent 来与客户互动。历史上这些事情一直很难做到。如果你考虑任何公司,可能会有客户支持部门,这和销售部门是分开的,而作为 CEO 你不希望这种情况,因为这是不同的技能。

Jensen Huang

我是你的客户支持,就为了工作。显然我是。每次马克需要什么东西,我不知道是聊天机器人还是艺术,但他只是我的聊天机器人。

Mark Zuckerberg

我想这就是,当你是 CEO 时,你必须做所有的事情。但当你在组织中构建抽象层时,很多时候这些组织是分开的,因为它们为了不同的目标而优化。理想的情况是它们是一个整体。作为客户,你不在乎在买东西时和遇到问题时会走不同的路径。你只希望有一个地方可以解答你的问题并与企业互动。这对创作者也适用。对消费者而言,这些与客户的互动,

Jensen Huang

特别是投诉,会让你的公司变得更好。完全同意。所有与 AI 的互动会捕捉到机构知识,这些都可以进入分析,进一步改进 AI ,如此循环往复。

Mark Zuckerberg

商业版本可能会更多整合,但我们还处于早期阶段。通过 AI Studio ,人们可以创建他们的 UGC Agent 和不同的东西,并在这个飞轮上起步。我对此非常兴奋。

Jensen Huang

所以我可以用 AI Studio 来微调我的图像,我的图像收藏吗?

Mark Zuckerberg

我们会做到的。

Jensen Huang

那么我可以给它我写的所有东西,用它作为我的 RAG 吗?基本上是这样。好的。然后每次我回到它那里,它会加载上次的记忆,我们可以继续我们的对话,就像什么都没发生一样。

Mark Zuckerberg

就像任何产品一样,随着时间的推移会变得更好,训练工具也会变得更好。不仅仅是你想说什么,通常创作者和企业也有他们想避开的主题。他们在这方面越来越擅长。理想情况是,不只是文字,你几乎希望能够进行视频聊天,这与我们正在做的一些编解码器头像工作有交集。我们会实现这一点。这些东西离我们并不远,飞轮转得很快。这很令人兴奋。有很多新东西要做。

即使基础模型的进展现在停止了,我们有五年的产品创新期来弄清楚如何最有效地使用已有的东西。但实际上基础模型和基础研究的进展在加速。这是一个相当疯狂的时代。

Jensen Huang

你的愿景是每个人都可以有一个 AI ,每个企业都可以有一个 AI 。在我们的公司,我希望每个工程师和每个软件开发者都有一个 AI ,甚至多个 AI 。你对每个人和每个公司都能制作自己的 AI 的愿景让我很喜欢,你开源了 Llama2.1,顺便说一下,Llama2 是去年 AI 领域最大的事件。

Mark Zuckerberg

还有 H100,但这是鸡和蛋的问题。

Jensen Huang

这是鸡和蛋的问题。哪个先来?H100。Llama2 实际上不是 H100,而是 A100。所以,这是最大的事件,因为当它出来时,它激活了每个公司、每个企业和每个行业。

突然间,每个医疗保健公司都在构建 AI ,每个公司都在构建 AI ,每个大公司、小公司,初创公司都在构建 AI 。它使每个研究人员都能重新参与 AI ,因为他们有了一个起点。

现在 Llama3.1 出来了,兴奋程度非常高。我们与合作伙伴一起部署 Llama3.1,将其带到全球的企业。兴奋程度超乎想象。它将启用各种应用程序。

但告诉我你的开源哲学。它从哪里来的?你开源了 PyTorch。现在这是进行 AI 的框架。你又开源了 Llama3.1 或 Llama,围绕它构建了整个生态系统,但这一切是从哪里来的?

Mark Zuckerberg

这有很多历史。我们做了很多开源工作。部分原因是坦率地说,我们在一些其他科技公司之后才开始构建分布式计算基础设施和数据中心。因此,当我们构建这些东西时,它们不再是竞争优势。我们想,既然如此,不如开源,这样我们就能从生态系统中受益。因此我们有很多这样的项目。

最大的项目可能是开放计算,我们公布了服务器设计、网络设计,最终是数据中心设计。通过让它成为行业标准,供应链也围绕它组织起来,这样可以为每个人节省成本。通过公开这些设计,我们基本上节省了数十亿美元。

Jensen Huang

开放计算让我们能够设计 Nvidia HGX,使其在某个数据中心内突然变得可能。

Mark Zuckerberg

它在每个数据中心都能工作。在每个数据中心都能工作,太棒了。所以我们有一个很棒的体验。然后我们也用了一些基础设施工具,比如 React、PyTorch。我想说在 Llama 出现之前,我们已经对这种事情持积极态度。

对于 AI 模型来说,我有一些看法。首先,在过去20年里,构建东西非常有趣。最困难的事情之一是我们不得不通过竞争对手的移动平台来发布我们的应用程序。一方面,移动平台对行业来说是一个巨大的推动力。

另一方面,通过竞争对手的平台发布产品是很有挑战性的。我成长的时代,第一版 Facebook 是在网络上的,那是开放的。然后随着向移动端的转变,好处是每个人现在都有口袋电脑。

不好的地方是,我们能做的事情变得更加受限了。当你看这些计算机代际变化时,有一种偏见,大家只看移动设备,认为这是封闭的生态系统,因为苹果基本上赢得了市场并设定了标准。我知道技术上有更多的安卓手机,但苹果基本上占据了整个市场,并且所有的利润,安卓在开发方面基本上是跟随苹果的,苹果显然赢得了这一代。

即使你回顾上一代,苹果做的是封闭的事情,但微软相对来说是更开放的, Windows 运行在不同的 OEM 和硬件上,是一个更开放的生态系统, Windows 是领先的生态系统。在PC时代,开放的生态系统获胜了。我希望在下一代计算中,开放的生态系统再次成为领先者。始终会有封闭和开放的两个系统,两者都有理由存在,各有优势。我不是一个狂热者,我们也做封闭源代码的东西,但并不是所有发布的东西都是开放的。

但总的来说,对整个行业来说,如果软件特别是开放的,那是有很大价值的。这真的塑造了我的哲学。对于 Llama AI 和我们在 AR 和 VR 中所做的工作,我们基本上在构建一个开放操作系统,就像 Android 或 Windows 一样,基本上使我们能够与许多不同的硬件公司合作,制造各种各样的设备。

我们基本上只是希望将生态系统恢复到那个水平,我对下一代的开放系统将获胜持乐观态度。对我们来说,我只是想确保我们能够构建我们将在其上构建社交体验的基本技术,因为有太多事情我试图构建,但被平台提供商拒绝了,所以我对下一个世代的目标是从头构建所有东西。

Jensen Huang

这是一个很棒的世界,人们致力于构建尽可能最好的 AI ,并将其作为服务提供给世界。但是,如果你想构建自己的 AI ,你仍然可以构建自己的 AI 。因此,使用 AI 的能力,有很多东西我不想自己制作这件夹克,我更喜欢有人为我制作这件夹克。

你明白我的意思吗?所以皮革是开源的对我来说没有什么意义。但拥有出色服务、令人难以置信的服务以及开放服务、开放可用性是很好的概念。

你们做的 3.1 真的很棒,有 4.5 B,有 70 B的 API,可以用于生成合成数据,使用较大的模型来教小模型。

尽管较大的模型更通用,但它不那么脆弱。你仍然可以构建适合任何操作领域或操作成本的小模型。因此,现在你们构建模型的方式是透明的,你们有世界级的安全团队、世界级的伦理团队,可以以所有人都知道的方式正确构建它,我真的很喜欢这一点。

Mark Zuckerberg

我之前岔开话题了,但我要补充一点。我们这样做是因为我们希望这种东西存在,并且我们不希望被某个封闭的模型排除在外。但这不仅仅是一块可以构建的软件,你需要一个生态系统。

如果我们不开放源代码,它几乎不会运作得很好。我们这样做不是因为我们是利他主义者,尽管这对生态系统有帮助,但我们这样做是因为我们认为这会使我们构建的东西最好,因为有一个强大的生态系统。

Jensen Huang

看看有多少人为 PyTorch 生态系统做出了贡献?数以百计的工程师。Nvidia 公司单独就有几百名工程师专注于让 PyTorch 更好、更可扩展、更高效等等。

Mark Zuckerberg

而且当某些东西成为行业标准时,其他人会围绕它做工作。所以所有的硅和系统最终会优化以很好地运行这东西,这将有利于所有人,但也会与我们构建的系统配合得很好。这只是如何变得非常有效的一个例子。所以,开源策略将是一个很好的商业策略。人们还没有完全理解。

Jensen Huang

我认识到重要的事情,Llama 确实很重要。我们围绕它构建了一个叫做 AI Factory、 AI Foundry 的概念,以便我们可以帮助每个人构建。很多人有构建 AI 的愿望,对他们来说拥有 AI 很重要,因为一旦他们将其纳入他们的数据飞轮,他们公司的知识就会被编码并嵌入到 AI 中。所以他们不能让 AI 飞轮、数据飞轮、经验飞轮在别处。开源让他们能做到这一点。但他们不知道如何将整个事情变成 AI 。

所以我们创建了这个叫 AI Foundry 的东西,我们提供工具、提供专长、Llama 技术,我们有能力帮助他们将整个事情转变成 AI 服务。当我们完成后,他们拥有它。输出是我们称之为 NIM 的东西,它神经微服务。可以下载它,拿去运行在任何他们喜欢的地方,包括在本地。

我们有一整套合作伙伴生态系统,从可以运行 NIM OEM 到我们训练并与之合作创建基于 Llama NIM 和流水线的 GSI。现在我们正在全球各地帮助企业这样做。这真的很令人兴奋,都是 Llama 开源引发的。

Mark Zuckerberg

特别是帮助人们从大模型中训练出自己的模型,这将是一个非常有价值的新事物。正如我们在产品方面谈到的,我不认为将会有一个主要的 AI Agent ,所有人都会与之对话。我也不认为将会有一个所有人都使用的模型。

Jensen Huang

我们有芯片设计 AI ,我们有软件编码 AI 。我们的软件编码 AI 理解USD,因为我们为 Omniverse 编写USD。我们有软件 AI 理解 Verilog,我们的Verilog。我们有软件 AI 理解我们的 bug 数据库,知道如何帮助我们分类 bug,并发送给合适的工程师。

每个 AI 都是基于 Llama 进行微调的。我们微调它们,为它们设置防护。如果我们有一个用于芯片设计的 AI ,我们不希望它回答政治和宗教问题。所以我们为它们设置防护。每家公司基本上会有适用于每个功能的 AI 。他们需要帮助才能做到这一点。

Mark Zuckerberg

未来的一个大问题是,人们在多大程度上会使用更大、更复杂的模型,而不是为他们的特定用途训练自己的模型。至少将会有各种不同模型的广泛普及。

Jensen Huang

我们使用最大的模型。原因是我们的工程师时间非常宝贵。我们现在正在优化 405B 模型的性能。405B 模型不适合任何 GPU ,无论多大。所以MV Link 性能非常重要。每一个 GPU 都通过这个非阻塞交换机连接。在 HGX 中,例如,有两个这样的交换机。我们使所有这些 GPU 能够高效运行 405B 模型。我们这样做是因为工程师时间对我们来说非常宝贵,我们希望使用尽可能好的模型。事实上,这种成本效益并不重要。所以我们只是想确保为他们提供最佳质量的结果。

Mark Zuckerberg

405B 的推理成本大约是 GPT-4o 模型的一半。所以我要补充这一点。这已经很不错了。人们在设备上做一些事情或希望使用更小的模型时,他们会将其简化。所以那是完全不同的一组服务。

Jensen Huang

AI 在运行。假设我们雇佣 AI 来设计芯片,每小时可能花费 10 美元。如果你不断使用它,并且将它与许多工程师共享,那么每个工程师可能都有一个 AI 在他们旁边。这并不昂贵。我们支付工程师很多钱。所以对我们来说,每小时几美元就能增强某个非常有价值的人的能力。

如果你还没有雇佣 AI ,马上去做。这就是我们要说的。让我们谈谈下一波浪潮。我非常喜欢你们所做的工作,计算机视觉。我们内部经常使用的一个模型是“分割一切”。我们现在在训练 AI 模型理解视频,以便我们能够更好地建模现实世界。

在我们的用例中,主要用于机器人技术和工业数字化,并将这些 AI 模型连接到 Omniverse ,以便更好地建模和表示物理世界。我有一些在这些 Omniverse 世界中运行得更好的机器人。你的Rayband Meta glass应用,将 AI 引入虚拟世界的愿景真的很有趣。告诉我们有关它的情况。

Mark Zuckerberg

好吧,我们其实正在这里展示该模型的下一版本 SIGRAF Segment Anything 2。它现在更快了。它在视频中也能工作。因为它是开放的,很多更严肃的应用也能在各行各业中使用。科学家用这个研究珊瑚礁和自然栖息地的演变。但能够在视频中做到这一点,并且能够零样本并与之交互,告诉它你想跟踪什么,是非常酷的研究。

Jensen Huang

例如,为什么我们使用它呢?例如,你有一个仓库,里面有很多摄像头,仓库的 AI 监控所有事情,假设有一堆箱子倒了或有人把水洒在地上,或任何事故即将发生。AI 识别它,生成文本,发送给某人,并帮助解决问题。这是使用它的一种方式。与其录制一切,如果发生事故,开始记录每一纳秒的视频并回放那个时刻,它只记录重要的部分,因为它知道在看什么。所以有一个视频理解模型,一个视频语言模型,对所有这些有趣的应用非常有用。现在你们还在研究什么?

Mark Zuckerberg

有所有的智能眼镜。我们将下一个计算平台分为混合现实头戴设备和智能眼镜。智能眼镜更容易被人理解,因为几乎每个人都在戴眼镜,最终都会升级到智能眼镜,而世界上有超过十亿人戴眼镜。所以这将是一个非常大的市场。VR MR头戴设备,有些人觉得它适合游戏或其他用途,有些人还不感兴趣。我的观点是,两者都会存在于世界上。智能眼镜会成为下一代计算平台的移动版,混合现实头戴设备则更像是你的工作站或游戏主机,当你想进行更沉浸式的会话时,你会坐下来使用更多计算能力。眼镜体积很小,有很多限制,就像你不能在手机上做同样水平的计算。

Jensen Huang

它正好赶上了生成式 AI 的所有突破。

Mark Zuckerberg

对于智能眼镜,我们从两个不同的方向来解决问题。一方面,我们在构建理想的全息 AR 眼镜的所需技术。我们正在进行所有定制的硅工作、定制的显示堆栈工作,所有使其工作的技术。而且它是眼镜,不是头戴设备,不像 VR MR头戴设备。它们看起来像眼镜。但与现在你戴的眼镜仍有很大差距。

Ray-Bans虽然很好,但还不能完全容纳所有需要的技术以实现全息 AR 。我们正在接近,未来几年会更接近。价格还会很高,但这将开始成为产品。另一个角度是从外观好看的眼镜开始。与世界上最好的眼镜制造商合作,如 EssilorLuxottica,他们制造所有的大品牌,如 Ray-Ban、Oakley、Oliver Peoples 等,这基本上是EssilorLuxottica的天下。

所以我们与他们合作,Ray-Ban 眼镜已进入第二代。目标是限制在一个看起来很好的眼镜内,尽可能多地放入技术。理解我们不可能完全实现我们的理想。但它最终会是看起来很好的眼镜。现在它有摄像头可以拍照和录像,可以直播到 Instagram ,可以进行 WhatsApp 视频通话,并向对方展示你所看到的。它有麦克风和扬声器,开放式耳机,许多人觉得比耳塞更舒适。

可以听音乐,像私人体验。可以接电话。但传感器包恰好可以与 AI 对话。这是一个意外。如果你五年前问我,我们会先得到全息 AR 还是 AI ,我会说是全息 AR 。因为显示技术和虚拟现实和混合现实技术在不断进步。

但 LLM 的突破改变了这一点。我们有了高质量的 AI ,并且以很快的速度变得更好,这比全息 AR 早。我们运气好,因为我们在研发这些产品。最终会有一系列不同的眼镜产品,不同价格和技术水平。我猜没有显示屏的 AI 眼镜,大约 300 美元,会是一个很大的产品,成千上万甚至数百万人会拥有。所以你会有超级互动的 AI 与你对话。

Jensen Huang

你展示了视觉语言理解。你有实时翻译。你可以用一种语言对我说话,我会用另一种语言听到。

Mark Zuckerberg

显示器显然也会很棒,但这会给眼镜增加一点重量,也会让它们更贵。所以会有很多人想要那种全息显示,但也会有很多人希望最终能有真的很薄的眼镜。

Jensen Huang

在工业应用和一些工作应用中,我们需要那种全息显示。

Mark Zuckerberg

在消费品中也是如此。

Jensen Huang

你这么认为吗?

Mark Zuckerberg

我在疫情期间想了很多,当时大家都远程办公。这很好,很棒我们有这个,但未来,我们距离能够进行虚拟会议的时代不远了,就像我没有真的在这里,而是我的全息影像。这种感觉就像我们在那里一样,物理上在场。我们可以一起工作和合作。这对于 AI 来说尤其重要。

Jensen Huang

我可以接受一种不需要一直佩戴的设备。

Mark Zuckerberg

但我们会达到这个点。在眼镜中,有薄框和厚框,有各种风格。所以我不认为我们离拥有全息眼镜的形式还很远。但在一副时尚的稍厚框的眼镜中实现这个目标并不遥远。

我试图成为一种风格的领导者,以便在眼镜上市之前能影响它。但我看到很多,现在还早。我觉得如果未来业务的一个重要部分是打造人们愿意佩戴的时尚眼镜,那么我应该开始更多地关注这一点。

所以我们可能需要告别我每天穿同样东西的版本。眼镜也是一样的。与手表或手机不同,人们真的不希望看起来都一样。所以这会是一个开放生态系统,因为人们会对款式和风格有巨大的需求。不像每个人都想戴同一副眼镜,那样行不通。

Jensen Huang

你是对的,Mark,这真是不可思议的时代,整个计算堆栈正在被重新定义。我们如何看待软件,从 软件一代到软件二代,现在我们基本上进入了软件三代。从通用计算到生成性神经网络处理的计算方式,能力和应用程序现在是过去难以想象的。

这项技术,无论是通用的还是 VI(视觉智能),我不记得有哪项技术以如此快的速度影响消费者、企业和科学领域。能够跨越气候技术、生物技术、物理科学等各个科学领域。生成式 AI 正在每个我们遇到的领域中进行根本性转变。此外,生成式 AI 将对社会产生深远影响,影响我们制造的产品。

有人问我,是否会有一个 Jensen AI ?这正是你所说的创意 AI ,我们可以自己构建 AI ,并加载我写过的所有内容。然后用我回答问题的方式进行微调。希望随着时间的推移,通过使用的积累,它会成为一个真正优秀的助手和伴侣。它不会带有评判性,所以你可以随时与之互动。这些真的是令人难以置信的事情。我们一直在写很多东西。

想象一下,只需提供三四个主题,它就能以我的语气写作并作为起点。所以我们现在可以做的事情真的太多了。与你合作真的很棒。我知道建立一家公司并不容易,你从桌面到移动设备,再到 VR ,再到 AI 所有这些设备的转变。视频领域也多次发生转变,我深知这有多难。我们多年来都遭受了很多挫折,但这正是成为先锋和创新者所需要的。所以,看着你真的很棒。

Mark Zuckerberg

如果你继续做之前做的事情,也不确定是否是转型。但这很不错。但这是一点增加。这一切还有更多的章节。而且我觉得,对于你们来说也是一样的——看你们走过的这段旅程真是有趣。我们经历了一个阶段,每个人都觉得,所有事情都要转向这些设备。这只是要变得超级便宜的计算能力。而你们只是继续坚持下去。实际上,你们会需要这些能够并行处理的大型系统。

Jensen Huang

我们走了另一条路,而不是制造越来越小的设备,我们做了一台计算机。我们开始制造图形芯片, GPU 。现在,当你部署一个 GPU 时,你仍然称它为 Hopper H100。所以你们知道,当 Mark 称它为 H100 时,他的数据中心有 H100,你们即将达到 60 万,我们是很好的客户。

Mark Zuckerberg

有一天,你说,几周后,我们在 SIGGRAPH 做这件事。我说,我那天没有什么安排,听起来很有趣。

Jensen Huang

完全正确。我那天下午没事。你就出现了。事情就是如此不可思议,这些系统你们建造的,这些巨大的系统,难以协调,难以运行。你说你们比大多数人晚进入 GPU 领域。但你们操作的规模比几乎任何人都大。这真是不可思议。祝贺你们所做的一切。

本文由人人都是产品经理作者【江天 Tim】,微信公众号:【有新Newin】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自SIGGRAPH 2024大会现场截图

继续阅读