（报告出品方/作者：华泰证券，谢春生、袁泽世）

大模型复盘：全球格局与模型特点基本明晰

2023 年是大模型（LLM）技术和应用快速迭代的一年。重要催化剂是 22 年 11 月底发布的 ChatGPT。ChatGPT 虽然在技术基座上是之前已经问世的 GPT-3 和 InstructGPT，但它给了全球用户一个与 LLM 交互的自然语言界面，极大拉近了 LLM 与普通大众的距离，引起了资本的关注，成为大模型技术加速迭代的导火索。微软、Google、Meta、Nvidia 等龙头大厂，OpenAI、Anthropic、Mistra 等初创公司，以及斯坦福、清华、上交等学术机构，引领了 23 年的 LLM 发展。LLM 技术也从模型本身扩展到端侧、AI Agent、具身智能等更广泛的领域。此外，在大模型技术应用上，一方面，云 SaaS 厂商将 AI 赋能于传统 SaaS 软件，如微软 Copilot 和 Adobe Firefly；另一方面，以 AI 为核心的应用兴起，如 AI 搜索 Perplexity，文生图 Stable Diffusion、Midjourney、DALL-E，文生视频 Runway、Pika、Sora 等。

全球格局：海外技术收敛，国内百花齐放

海外闭源大模型已经形成 OpenAI 为首，Google、Anthropic 等模型紧随的格局。闭源模型中，虽然 Google Gemini 和 Anthropic 分别于 24 年 2 月和 3 月更新了 1.5 Pro（Gemini 1.0 是在 23 年 12 月）和 Claude 3，在上下文长度、数学、编码、专业领域等能力测评上超过了 GPT-4，但是考虑到：1）GPT-4 和 4 Turbo 实质上为 23 年 3 月 GPT-4 系列的迭代，比 Gemini 和 Claude 3 早推出近一年；2）ChatGPT 对多模态、App 语音交互、工具调用（联网、高级数据分析）、智能体（GPTs）等能力进行了有机整合；3）根据 UC 伯克利大学 Chatbot Arena 的榜单（该榜单为用户盲测模型评价的结果，较为客观），GPT-4 的用户体验仍是头部顶尖水平；4）GPT-5 已在训练中；5）GPT-4o 的端到端能力再次提升。因此，我们认为，OpenAI 的技术仍处于暂时领先。

Meta 的 Llama 系列作为开源模型，具有格局上的特殊性和分界性。海外模型厂商如果在模型性能上无法超越同代的开源 Llama 模型（据 Meta 官网 4 月 18 日信息，Llama 3 的 8B 和 70B 先行版小模型已经发布，最大的 400B 参数正在训练），则很难在海外基础模型中占据一席之地，除非模型具有差异化应用场景，典型的如陪伴类应用 Character.ai。此外，除了头部大参数模型，能够超过同代 Llama 的较小参数或者有独特使用体验的模型，也会得到用户青睐，典型的如：1）马斯克旗下 xAI 的 Grok-1（已开源）、Grok-1.5（未开源），能够独家使用 X 平台上的数据，较好的响应用户实时信息查询需求；2）法国大模型初创公司 Mistral，开源了 Mistral 7B、Mixtral 8x7B-MoE 小模型，适配算力受限的端侧等平台，随后又转入闭源模型，更新了性能更强的 Mistral-medium 和 large，并与微软合作，在 Azure 上为用户提供 API。

国内模型百花齐放，互联网大厂、初创公司、科技企业均有代表性模型产品。国内模型技术辨识度不高，据 SuperCLUE 测评结果榜单，头部的国内模型在得分上相差并不显著。在国内主流的模型中，互联网厂商和科技企业在大模型上起步较早，如百度在 GPT-4 发布的后一天即 23 年 3 月 15 日发布文心一言，23 年 3 月 29 日 360 智脑 1.0 发布，23 年 4 月通义千问上线，23 年 5 月 6 日讯飞星火 1.0 发布。进入 24 年，初创公司的大模型产品得到了更广泛的关注，例如 24 年 3 月月之暗面更新 Kimi 智能助手 200 万字的上下文支持能力，直接引发了百度、360 等厂商对长上下文的适配。同月阶跃星辰 STEP 模型发布，其 STEP 2 宣称为万亿参数 MoE 模型，直接对标 GPT-4 的参数（一般认为是 1.8 T 参数的 MoE），在大多数国内模型以千亿参数为主的环境下，将参数量率先提升到万亿级别。4 月，MiniMax 也发布了万亿参数 MoE 架构的 abab 6.5。

特点#1：大模型与小模型同步发展

根据 Scaling Law，更大参数、更多数据和更多算力能够得到更好的模型智能。2020 年 1 月，OpenAI 发布论文《Scaling Laws for Neural Language Models》，奠定了 Scaling Law （缩放定律）的基础，为后续 GPT 的迭代指明了大参数、大算力方向。Scaling Laws 是一种经验性质的结论，并非完备的数学理论推导。OpenAI 在 decoder-only Transformer 架构的特定配置下进行了详尽的实验，摸清了模型性能（用模型 Loss 衡量，Loss 越小性能越好）与参数（N）、数据集 token（D）和投入训练算力（C）的关系——N、D、C 是影响 Loss 最显著的因素，三者增加将带来更好的模型性能。Transformer 架构中的层数、向量宽度等其它参数并不构成主要影响因素。

根据 Scaling Law 论文，可以用 6ND 来估算模型所需要的训练算力（以 FLOPs 为单位）。 Transformer 架构涉及了多种参数，包括层数（nlayer）、残差流维数（dmodel）、前馈层维数（dff）、注意力机制输出维数（dattn）、每层注意力头数（nhead）、输入上下文 token 数（nctx）等。在训练数据进入 Transformer 解码器后，每一步运算都会涉及相应的参数，并对应有需求的算力。据 OpenAI 测算，单个 token 训练时在 Transformer 解码器中正向传播，所需 FLOPs（每秒浮点运算数）为 2N+2nlayernctxdattn。由于在论文写作于 2020 年，当时模型上下文长度 nctx并不长，满足 dmodel> nctx/12，因此 2N+2nlayernctxdattn可约等于 2N。在训练中反向传播时，所需算力约为正向的 2 倍（即 4N），因此单个 token 训练全过程需要算力总共 6N FLOPs，考虑全部的训练 token 数 D，共需算力近似 6ND FLOPs。在推理时，为了计算方便，通常采用正向训练算力需求 2ND 来计算所需 FLOPs。值得注意的是，目前 Claude 3、Gemini 1.5 Pro、Kimi 智能助手等大模型支持的上下文长度远超当年，dmodel > nctx/12 不再满足，因此 2nlayernctxdattn 应予以考虑。即上下文长度更长时，训练需求的算力是高于 6ND 的。

在 Scaling Law 指导下，OpenAI 延续了大参数模型的路线。2020 年 1 月 Scaling Laws 论文发表后不久，2020 年 5 月 GPT-3 系列问世，将参数从 GPT-2 的 15 亿提升到 1750 亿，训练数据大小从 40G 提升到 570G（数据处理后，处理前数据量更大），分别提升了 100+ 倍和 14 倍。到了 GPT-4，虽然 OpenAI 官方未公布参数大小，但是根据 SemiAnalysis 的信息，目前业界基本默认了 GPT-4 是 1.8 万亿参数的 MoE 模型，训练数据集包含约 13 万亿个 token，使用了约 25,000 个 A100 GPU，训练了 90 到 100 天，参数量、数据集和训练所需算力相比 GPT-3 又有数量级的提升。OpenAI 在不断践行 Scaling Law，将模型的参数以及模型的智能提升到新的层级。

从 Google 和 Anthropic 的模型布局看，印证了大参数能带来模型性能的提升。Google 的 Gemini 和 Anthropic 的 Claude 3 系列均分别提供了“大中小”三款模型，虽然两家厂商并未给出模型参数、训练数据细节，但是均表示更大的模型智能更强，推理速度相对较慢，所需的算力和训练数据也相应更多，是对 Scaling Law 的印证。此外，我们梳理了全球主流模型厂商的参数情况，同样发现旗舰模型的参数量仍在变大。

我们认为，全球头部闭源模型的参数目前呈现的规律是：跨代际更新，模型参数进一步加大；同代际更新，随着模型技术架构优化和软硬件资源协同能力提高，在模型性性能不降的情况下，参数或做的更小。Google 和 OpenAI 的最新模型都呈现了这个趋势。24 年 5 月 13 日，OpenAI 发布了 GPT-4o 模型，在多模态端到端的架构基础上，实现了更快的推理速度，以及相比于 GPT-4 Turbo 50%的成本下降，我们推测其模型参数或在下降。5 月 14 日 Google 发布了 Gemini 1.5 Flash，官方明确指出 Flash 是在 Pro 的基础上，通过在线蒸馏的方式得到，即 Flash 的参数小于 Pro。

大参数并不是唯一选择，小参数模型更好适配了终端算力受限的场景。Google 的 Gemini 系列是典型代表，其最小的 Nano 包括 1.8B 和 3.25B 两个版本，并且已经在其 Pixel 8 Pro 和三星 Galaxy S24 上实现部署，取得了不错的终端 AI 效果。此外，Google 在 24 年 2 月开源了轻量级、高性能 Gemma（2B 和 7B 两种参数版本），与 Gemini 模型技术同源，支持商用。Google 指出，预训练和指令调整的 Gemma 模型可以在笔记本电脑、工作站、物联网、移动设备或 Google Cloud 上运行。微软同样在 23 年 11 月的 Ignite 大会上提出了 SLM（小语言模型）路线，并将旗下的 Phi 模型升级到 Phi-2，参数大小仅 2.7B，性能超过 7B 参数的 Llama 2。24 年 4 月 Phi-3 发布，最小参数仅 3.8B，其性能超过参数量大其两倍的模型，5 月微软 Build 大会上，Phi-3 系列参数为 7B 和 14B 的模型发布。

Mistral发布的 7B和 8x7B 模型也是开源小模型的典型代表。法国人工智能初创公司 Mistral AI 成立于 2023 年 5 月，其高管来自 DeepMind、Facebook 等核心 AI 团队。2023 年 9 月和 12 月，Mistral 分别开源了 Mistral-7B（73 亿参数）和 Mixtral-8x7B-MoE（467 亿参数， 8 个专家）。 Mistral-7B 在多项测试基准中优于 130 亿参数的 Llama 2-13B 。 Mixtral-8x7B-MoE 在大多数测试基准上超过 Llama 2，且推理速度提高了 6 倍；与 GPT-3.5 相比，也能在多项测评基准上达到或超过 GPT-3.5 水平。在小参数开源模型中，Mistral 的竞争力很强。Mistral 推出的平台服务 La plateforme 也支持模型的 API 调用。

小参数模型的训练算力需求仍在变大，定性看，训推算力需求空间可观。虽然模型参数较小，但是为了提高性能，模型厂商均投入了大量的训练数据。如Phi-2有1.4T训练数据tokens， Phi-3 为 3.3T tokens，Gemma 为 6T/2T tokens（分别对应 7B 和 2B 模型）。24 年 4 月 Meta 率先开源的两个 Llama 3 系列小模型 8B 和 70B，对应的训练 token 已经达到了 15T，并且 Meta 表示，即使已经使用了 15T 的训练数据，仍能看到模型性能的持续提升。我们认为，虽然单个小模型相比于大模型训练算力需求并不大，但是一方面小模型本身的训练数据集在不断增加，另一方面，未来在终端 AI PC 和手机，甚至车机和机器人上，都有可能部署终端模型，因此定性看，小模型总体的训练和推理算力需求仍然可观。

特点#2：原生多模态逐步成为头部大模型的标配能力

OpenAI 的 GPT 系列在全球闭源大语言模型厂商中率先适配多模态能力。抛开专门的多模态模型/产品，如文生图 Stable Diffusion / Midjourney / DALL-E，文生视频 Sora / Runway / Pika / Stable Video Diffusion 外，在头部闭源 LLM 中，OpenAI 的 GPT-4 最先引入多模态能力。23 年 3 月，GPT-4 技术报告中即展示了 GPT-4 支持文本和图像两种模态作为输入。 9 月 25 日，OpenAI 官方 Blog 宣布 GPT-4 的 Vision（视觉）能力上线，支持多图和文本的交错推理，同时宣布 ChatGPT App 支持语音交互（语音转文本模型为 Whisper，文本转语音模型为 Voice Engine）。23 年 10 月 19 日，OpenAI 旗下新一代文生图模型 DALL-E 3 在 ChatGPT 中实装上线，可以通过与 ChatGPT 对话来实现文生图。

通过模型间非端到端协作，ChatGPT 网页端和 App 实现了完备的多模态能力支持。随着 OpenAI 的 GPT-4V、DALL-E 3、Whisper、Voice Engine 等模型的上线和更新，OpenAI 将所有的模型协同集成成 pipeline 形式，使得 ChatGPT 能够实现：1）推理文本；2）理解图像；3）生成图像；4）语音转文本；5）文本转语音。ChatGPT 成为 2023 年支持模态最多的 LLM 产品。

Google 从 PaLM 模型开始即在探索 LLM 向多模态领域的拓展。PaLM 是 Google Gemini 的前一代主要模型系列。2022 年 4 月，Google 的 PaLM 模型问世。PaLM 自身为大语言模型，仅支持文本模态，但是在 PaLM 的能力之上，Google 将图像、机器人具身数据转化为文本 token 形式，训练出多模态模型 PaLM-E。此外，还将音频模态与 PaLM 模型结合，发布 AudioPaLM。在医疗领域，Google 先基于 PaLM 训练出医疗语言模型 Med-PaLM，随后在 Med-PaLM 基础上将医疗图像知识增加到训练数据中，训练出医疗领域多模态模型 Med-PaLM M。

Gemini 模型问世后，端到端原生多模态能力成为头部模型厂商的“标配”能力。2023 年 5 月的 I/O 大会上，Google 宣布了下一代模型 Gemini，但未透露细节。12 月，Gemini 1.0 模型发布，配备了 Ultra/Pro/Nano 三种参数大小依次递减的型号。Gemini 同样支持文本、图像、视频、音频等多模态，但是其范式和 OpenAI 的 ChatGPT 有很大区别：ChatGPT 属于多种不同模型的集合，每个模型负责不同的模态，结果可以串联；而 Gemini 具备端到端的原生多模态能力，Gemini 模型自身可以处理全部支持的模态。据 The Decoder 信息，23 年 OpenAI 内部已经在考虑一种代号为“Gobi”的新模型，该模型同样从一开始就被设计为原生多模态。我们认为，这种端到端的原生多模态范式将成为未来头部大模型厂商实现多模态的主流范式。

Anthropic Claude 模型多模态能力“虽迟但到”，Claude 3 模型科研能力优异。Anthropic 的 Claude 系列模型在 2024 年 3 月更新到 Gen 3 后，全系适配了多模态图像识别能力，并在科学图表识别上大幅超越 GPT-4 和 Gemini 1.0 Ultra。此外，Claude 3 Haiku 有着优秀的成本控制和推理速度优势，据 Anthropic 官方，Haiku 的速度是同类产品的三倍，能够在一秒内处理约 30 页的内容（21K token），使企业能够快速分析大量文档，例如季度备案、合同或法律案件，且一美元就能分析 400 个最高法院案例或 2500 张图片。

GPT-4o 在 GPT-5 发布之前实现了端到端的多模态支持，验证了原生多模态的技术趋势。 24 年 5 月 14 日 Google I/O 大会前夕，OpenAI 发布了新版模型 GPT-4o（omni），弃用了之前 ChatGPT 拼接 GPT-4V、Whisper、DALL-E 的非端到端模式，统一了文本、图像、音频和视频模态，以端到端的方式，实现了输入文本、图像、音频和视频，输出文本、图像和音频，追上了 Google Gemini 的原生多模态进度，并且模态支持更加全面（4o 支持音频输出，Gemini 不支持）。4o 在文本、图像、音频等各项指标上均超越了同等级现有模型。

Claude 3.5 Sonnet增强了UI交互体验，与GPT-4o的语音交互相比朝着差异化路径发展。 6 月 21 日，Anthropic 宣布了 Claude 3.5 Sonnet 模型，在价格相比于 Claude 3 Sonnet 不变的情况下，在研究生水平推理、代码等能力（文本层面），以及视觉数学推理、图表问答等能力（视觉层面）上超过了 GPT-4o。Claude 3.5 Sonnet 另一个突出的性能是 UI 交互能力的增强，主要由 Artifacts 功能实现。当用户要求 Claude 生成代码片段、文本文档或网站设计等内容时，对话旁边的专用窗口中将实时出现相应的展示，例如编写的游戏、网页等。 Anthropic 指出，Artifacts 交互方式未来将会从个人拓展到团队和整个组织协作，将知识、文档和正在进行的工作集中在一个共享空间中。我们认为，GPT-4o 和 Claude 3.5 Sonnet 均在优化用户交互上下功夫，但是两者的方向存在差异化，GPT-4o 更注重语音交互，而 Sonnet 更注重 UI 界面交互。

国内模型厂商积极适配多模态，以图像理解能力为主。在 GPT-4 宣布支持多模态后，国内厂商也积极适配多模态图片的识别、理解和推理。截至 2024 年 4 月，国产主流模型多模态支持情况如下：1）百度文心一言，说图解画支持单张图像推理，支持图像生成。2）阿里通义千问，支持单张图片推理，支持图像生成。阿里开源的模型 Qwen-VL 支持图像推理。 3）腾讯混元助手，支持图像生成，以及单张图像推理。3）讯飞星火，支持单张图像推理，支持图像生成。4）智谱 ChatGLM 4，支持单张图像推理，支持图像生成。5）360 智脑，支持图像生成。6）字节豆包，支持图像生成。7）Kimi 智能助手，支持图片中的文字识别。月之暗面官方表示 24 年下半年将支持多模态推理。8）阶跃星辰基于 Step 模型的助手跃问，支持多图推理。

特点#3：上下文作为 LLM 的内存，是实现模型通用化的关键

国外 LLM 厂商较早实现长上下文，国内厂商通过长上下文找到差异化竞争优势。国外较早实现长上下文的厂商是 Anthropic，旗下 Claude 模型在 23 年 11 月，将支持的上下文从 100K tokens 提升到 200K，同时期的 GPT-4 维持在 128K。24 年 2 月，Google 更新 Gemini 到 1.5 Pro 版本，将上下文长度扩展到 1M（5 月更新中扩展到 2M），并在内部实现了 10M，是目前已知最大上下文长度。国内方面，23 年 10 月由月之暗面发布的 Kimi 智能助手（原名 Kimi Chat），率先提供 20 万字的长上下文，并在 24 年迎来了用户访问量的大幅提升。 24 年 3 月，阿里通义千问和 Kimi 先后宣布支持 1000 万字和 200 万字上下文，引发国内百度文心一言、360 智脑等厂商纷纷跟进长上下文能力迭代。我们认为，国内 LLM 厂商以长上下文为契机，寻找到了细分领域差异化的竞争路线，或有助于指导后续的模型迭代。

长上下文使得模型更加通用化。据月之暗面官方信息，长上下文能够解决 90%的模型微调定制问题。对于短上下文模型，在执行具体的下游任务前，其已具备的能力往往仍有欠缺，需要针对下游任务进行微调。微调的基本步骤包括数据集的准备、微调训练等，中间可能还涉及微调结果不理想，需要重新梳理微调过程。而上下文长度足够的情况下，可以将数据作为提示词的一部分，直接用自然语言输入给大模型，让模型从上下文中学习，达到微调效果，使得模型本身更具有通用性。以 Google Gemini 1.5 Pro 为例，将 250K token 的 Kalamang 语（全球使用人数小于 200 人，几乎不存在于 LLM 的训练集中）直接作为上下文输入给模型，实现了接近人类的翻译水平。而 GPT-4 和 Claude 2.1 由于上下文支持长度不够，无法通过上下文学习到全部的知识。

长上下文还能很好的适配虚拟角色、开发者、AI Agent、垂类场景等需求。1）虚拟角色 Chatbot：长文本能力帮助虚拟角色记住更多的重要用户信息，提高使用体验。2）开发者：基于大模型开发剧本杀等游戏或应用时，需要将数万字甚至超过十万字的剧情设定以及游戏规则作为 prompt 输入，对长上下文能力有着刚性需求。3）AI Agent：Agent 智能体运行需要自主进行多轮规划和决策，且每步行动都可能需要参考历史记忆信息才能完成。因此，短上下文会导致长流程中的信息遗忘，长上下文是 Agent 效果的重要保障。4）垂直场景客户需求：对于律师、分析师、咨询师等专业用户群体，有较多长文本内容分析需求，模型长上下文能力是关键。

实现长上下文有多种方法，优化 Transformer 架构模块是核心。拆解 Transformer 解码器，可以通过改进架构中的各个模块来实现上下文长度的拓展。1）高效注意力机制：高效的注意力机制能够降低计算成本，甚至实现线性时间复杂度。这样在训练时就可以实现更长的序列长度，相应的推理序列长度也会更长。2）实现长期记忆：设计显式记忆机制，如给予外部存储，解决上下文记忆的局限性。3）改进位置编码 PE：对现有的位置编码 PE 进行改进，实现上下文外推。4）对上下文进行处理：用额外的上下文预/后处理，在已有的 LLM （视为黑盒）上改进，确保每次调用中给 LLM 的输入始终满足最大长度要求。5）其他方法：以更广泛的视角来增强 LLM 的有效上下文窗口，或优化使用现成 LLM 时的效率，例如 MoE（混合专家）、特殊的优化目标函数、并行策略、权重压缩等。

RAG 与其他长文本实现方法相比，并没有显著的优劣之分，要结合场景进行选择。RAG 基本原理是，在用户提问时，retriever（检索器）会从外部的知识库中检索最相关的信息传递给大模型，作为大模型推理所需知识的补充。RAG 更像是大模型本身的“外挂”帮手。而优化注意力机制等其他长上下文实现方法，则是大模型的“内生”能力，是模型本身能够支持输入更长的信息，并通过注意力机制掌握序列全局关系。“内生”似乎比“外挂”更高级，因为模型会捕捉到用户提出的所有历史信息，更适用于 C 端信息量有限场景。但是对于 B 端用户，其企业 Know-How 积累量巨大，且很多知识也是结构化的 QA（如客服），而模型上下文长度不可能无限延长（受制于算法、算力、推理时间等各种因素），因此 RAG 这种“外挂”的形式更加适合。例如，主要面向 B 端的大模型厂商 Cohere，将 RAG 作为模型重要能力以适配 B 端检索场景，其 Command R+模型本身上下文长度仅 128K。我们认为，“内生”长文本技术是从根本上解决问题，是发展趋势，但是受制于算力等因素（未来或将逐步解决），短期内将与 RAG 共存，选择上取决于使用场景。

特点#4：MoE 是模型从千亿到万亿参数的关键架构

MoE 架构有利于预训练和推理效率的提升，方便模型 scale up 到更大的参数。据 Hugging Face 信息，在有限的计算资源预算下，用更少的训练步数训练一个更大的模型，往往比用更多的步数训练一个较小的模型效果更佳。MoE 的一个显著优势是它们能够在远少于稠密模型所需的计算资源下进行有效的预训练，当计算资源有限时，MoE 可以显著扩大模型或数据集的规模，更快地达到稠密模型相同的质量水平。MoE 的引入使得训练具有数千亿甚至万亿参数的模型成为可能。MoE 特点在于：1）与稠密模型相比，预训练速度更快；2）与具有相同参数数量的模型相比，具有更快的推理速度（因为只需要调用部分参数）；3）需要大量显存，因为所有专家系统都需要加载到内存中，而 MoE 架构的模型参数可达到上万亿；4）MoE 进行指令调优具有很大的潜力，方便做 Chatbot 类应用。

MoE 由稀疏 MoE 层和门控网络/路由组成。MoE 模型仍然基于 Transformer 架构，组成部分包括：1）稀疏 MoE 层：这些层代替了传统 Transformer 模型中的稠密前馈网络层，包含若干“专家”(例如 8、16、32 个)，每个专家本身是一个独立的神经网络。这些专家甚至可以是 MoE 层本身，形成层级式的 MoE 结构。稀疏性体现在模型推理时，并非所有参数都会在处理每个输入时被激活或使用，而是根据输入的特定特征或需求，只有部分参数集合被调用和运行。2）门控网络/路由：决定将用户输入的 tokens 发送到哪个具体的专家。例如下图中，“More”对应的 token 被发送到第二个专家处理，而“Parameters”送到第一个专家。一个 token 也可以被发送到多个专家进行处理。路由器中的参数需要学习，将与网络的其他部分一同进行预训练。

专家数量存在边际递减效应，MoE 的选择也要考虑模型的具体应用场景。据 Hugging Face 信息，增加更多专家可以加速模型的运算速度和推理效率，但这一提升随着专家数量的增加而边际递减，尤其是当专家数量达到 256 或 512 之后更为明显。另外，虽然推理时只需要激活部分参数，但是推理前仍然需要将全量的模型参数加载到显存中。据 Switch Transformers 的研究结果，以上特性在小规模 MoE 模型下也同样适用。在架构的选择上， MoE 适用于拥有多台机器（分布式）且要求高吞吐量的场景，在固定的预训练计算资源下，稀疏模型往往能够实现更优的效果。在显存较少且吞吐量要求不高的场景，传统的稠密模型则是更合适的选择。

Google 是 MoE 架构的早期探索者之一，OpenAI 实现了 MoE 的商业化落地。MoE 的理念起源于 1991 年的论文《Adaptive Mixture of Local Experts》。在 ChatGPT 问世之前， Google 已经有了较深入的 MoE 研究，典型代表是 20 年的 Gshard 和 21 年的开源 1.6 万亿 Switch-Transformer 模型。23 年 3 月 GPT-4 问世，OpenAI 继续走了闭源路线，没有公布模型参数。但是据 SemiAnalysis 信息，GPT-4 的参数约 1.8 万亿，采用 MoE 架构，专家数为 16，每次推理调用两个专家，生成 1 个 token 约激活 2800 亿参数（GPT-3 为 1750 亿参数），消耗 560 TFLOPs 算力。在 GTC 2024 演讲上，黄仁勋展示了 GB200 训练 GPT 模型示意图，给出的参数也是 GPT-MoE-1.8T，交叉印证。

Mistral 引发 MoE 关注，Google 掀起 MoE 浪潮，国内厂商跟随发布 MoE 模型。23 年 12 月，Mistral 开源 Mixtral-8x7B-MoE，以近 47 亿的参数在多项测评基准上达到或超过 1750 亿参数的 GPT-3.5 水平，引发了全球开发者对 MoE 架构的再次关注。英伟达的研究主管 Jim Fan 指出 MoE 将成为未来模型发展的重要趋势。24 年 2 月，Google 将其最先进模型系列 Gemini 更新到 1.5 Pro，并指出架构上从稠密架构切换到 MoE 架构，实现了 1.5 Pro 模型性能的大幅提升，核心能力超过 Gemini 1.0 Ultra。国内外模型厂商随即跟进发布 MoE 相关模型，包括 xAI 开源的 Grok-1（23 年 10 月已实现 MoE，24 年开源）、MiniMax abab6、 Databricks DBRX、AI21 Jamba、阿里 Qwen-1.5 MoE、昆仑万维天工 3.0、阶跃星辰 STEP 2、商汤日日新 5.0 等。

大模型展望：Scaling Law + AI Agent + 具身智能

展望 24 年及之后的大模型发展方向，我们认为，1）Scaling Law 虽然理论上有边界，但是实际上仍远未达到；2）虽然有 Mamba、KAN 等新的架构挑战 Transformer，但是 Transformer 仍是主流，短期内预期不会改变；3）以 Meta Llama 为首的开源模型阵营日益强大，占据了整个基础模型的超半数比重，且与闭源模型差距缩短；4）AI Agent 是实现 AGI 的重要加速器。5）具身智能随着与 LLM 技术的融合，将变得更加可用。

展望#1：Scaling Law 理论上有边界，但是目前仍未到达

Scaling Law 的趋势终将会趋于平缓，但是目前公开信息看离该边界尚远。OpenAI 在 2020 年 1 月的 Scaling Law 论文中明确指出，整个研究过程中 OpenAI 在大算力、大参数和大训练数据情况下，并没有发现 Scaling Law 出现边界递减的现象。但也提到，这个趋势终将趋于平缓（level off），因为自然语言具有非零熵。但是实际上，根据斯坦福大学 2023 年的 AI Index 报告，2012-2023 年，头部模型训练消耗的算力仍然在持续增大。

可预期的时间内，Scaling Law 的上限尚未看到，self-play 是趋势。我们认为，虽然 OpenAI 从理论上预测了 Scaling Law 的趋势会区域平缓，但是目前全球头部模型厂商依然遵循更大的参数等于更高的智能。Gemini 和 Claude 3 发布的模型产品矩阵即验证了这一观点，例如更小的 Claude 3 Haiku 输出速度快于最大的 Claude 3 Opus，价格更低，智能情况和测评得分也更低。清华大学教授、智谱 AI 的技术牵头人唐杰教授在 24 年 2 月北京人工智能产业创新发展大会上发表演讲《ChatGLM：从大模型到 AGI 的一点思考》，也指出了目前很多大模型还在 1000 亿参数左右，“我们还远未到 Scaling law 的尽头，数据量、计算量、参数量还远远不够。未来的 Scaling law 还有很长远的路要走。”此外，唐杰教授还认为，“今年的阶段性成果，是实现 GPT 到 GPT Zero 的进阶，即大模型可以自己教自己”，类似于 AlphaGo 到 Alphazero 的转变，实现模型 self-play。

展望#2：模型幻觉短期难消除但可抑制，CoT 是典型方法

大模型的幻觉来源包括数据、训练过程、推理过程等。LLM 的幻觉（hallucination），即 LLM 输出内容与现实世界的事实或用户输入不一致，通俗说就是“一本正经胡说”。幻觉的来源主要分为 3 类：1）与训练数据相关的幻觉；2）与训练过程相关的幻觉；3）与推理过程相关的幻觉。根据幻觉来源的不同，针对性的有各种解决方法。1）数据相关的幻觉：可以在准备数据时，减少错误信息和偏见，扩展数据知识边界，减少训练数据中的虚假相关性，或者增强 LLM 知识回忆能力，如使用思维链（CoT）。2）训练过程相关的幻觉：可以避免有缺陷的模型架构，例如改进模型架构或优化注意力机制；也可以通过改进人类偏好，减轻模型与人类对齐时的奉承性。3）推理过程相关的幻觉：主要是在解码过程中，增强解码的事实性和忠诚性，例如保证上下文和逻辑的一致等。

展望#3：开源模型将在未来技术生态中占据一席之地

2023 年开源模型在全球基础模型中所占的比重大幅提高。根据斯坦福大学 2023 年的 AI Index 报告，2021-2023 年全球发布的基础模型数量持续增多，且开源模型的占比大幅提高， 21-23 年占比分别为 33.3%、44.4%和 65.7%。此外，4 月 OpenAI CEO 和 COO 在接受访谈时，指出“开源模型无疑将在未来的技术生态中占据一席之地。有些人会倾向于使用开源模型，有些人则更偏好于托管服务，当然，也会有许多人选择同时使用这两种方式。”

Meta 持续开源 Llama 系列模型，证明了开源模型与闭源模型差距持续缩小。4 月 19 日， Llama 3-8B 和 70B 小模型发布，支持文本输入和输出，架构和 Llama 2 基本类似（Transformer decoder），上下文长度 8K，15T 训练 token（Llama 2 是 2T）。评测结果看， Llama-70B 与 Gemini 1.5 Pro 和 Claude 3 Sonnet 相比（这两个闭源模型参数都预期远大于 70B），在多语言理解、代码、小学数学等方面领先。Llama 3 继续坚持开源，可商用，但在月活超 7 亿时需向 Meta 报备。根据 Mata 官方信息，Llama 3 将开源 4000 亿参数版本，支持多模态，能力或是 GPT-4 级别。目前训练的阶段性 Llama 3-400B 已经在 MMLU 测评集（多任务语言理解能力）上得分 85 左右，GPT-4 Turbo 得分是 86.4，差距很小，且 Llama 3 400B 仍将在未来几个月的训练中持续提升能力。基于 Llama 1 和 2 带来的繁荣开源模型生态，我们认为，正式版 Llama 3 发布后，或将进一步缩小开源模型与闭源模型的差距，甚至在某些方面继续赶超。

大模型的开源闭源之争尚未有定论。开源和闭源在各个领域中谁占主导，并没有定数。复盘来看，闭源在操作系统、浏览器、云基础设施、数据库等领域占据了主导地位，开源在内容管理系统、网络服务器等领域优势地位明显。反观大模型领域，开源闭源谁将最终胜出尚未有定论。当下，闭源模型的优势在于：1）资源集中：大模型训练属于计算资源密集型行业，在当前各大云厂商算力储备爬坡阶段，只有闭源才能实现万卡级别的大规模分布式集群；2）人才集中：OpenAI、Google、Anthropic、Mata 等大模型头部厂商，集中了目前全球为数不多的大模型训练人才，快速形成了头部效应。那我们的问题是，这种优势持续性有多长？资源方面，未来随着算力基础设施的逐步完善、单位算力成本的下降、推理占比逐步超过训练，大厂的资源密集优势是否还会显著？人才方面，全球已经看准了 LLM 的方向，相关人才也在加速培养，OpenAI 的相关人才也在快速流失和迭代，人才壁垒是否也在降低？

展望#4：数据将成为模型规模继续扩大的瓶颈，合成数据或是关键

Epoch 预测，未来训练数据的缺乏将可能减缓机器学习模型的规模扩展。据 Epoch 预测， 2030 年到 2050 年，将耗尽低质量语言数据的库存；到 2026 年，将耗尽高质量语言数据的库存；2030 年到 2060 年，将耗尽视觉数据的库存。由于大参数模型对数据量需求的增长，到 2040 年，由于缺乏训练数据，机器学习模型的扩展大约有 20%的可能性将显着减慢。值得注意的是，以上结论的前提假设是，机器学习数据使用和生产的当前趋势将持续下去，并且数据效率不会有重大创新（这个前提未来可能被新合成技术打破）。

合成数据是解决数据缺乏的重要途径，但目前相关技术仍需要持续改进。理论上，数据缺乏可以通过合成数据来解决，即 AI 模型自己生成训练数据，例如可以使用一个 LLM 生成的文本来训练另一个 LLM。在 Anthropic 的 Claude 3 技术报告中，已经明确提出在训练数据中使用了内部生成的数据。但是目前为止，使用合成数据来训练生成性人工智能系统的可行性和有效性仍有待研究，有结果表明合成数据上的训练模型存在局限性。例如 Alemohammad 发现在生成式图像模型中，如果在仅有合成数据或者真实人类数据不足的情况下，将出现输出图像质量的显著下降，即模型自噬障碍（MAD）。我们认为，合成数据是解决高质量训练数据短缺的重要方向，随着技术演进，目前面临的合成数据效果边际递减问题或逐步解决。

展望#5：新的模型架构出现，但是 Transformer 仍是主流

Transformer 架构主流地位未被撼动。截止 23 年 5 月，LLM 绝大部分仍然以 Transformer 为基础架构，包括当前最先进的 GPT-4 系列、Google Gemini 系列、Meta Llama 系列，均是以 Transformer 的解码器架构为主。虽然有研究者提出了 Mamba 等基于状态空间模型（SSM）的新模型架构，实现了：1）推理时的吞吐量为 Transformer 的 5 倍；2）序列长度可以线性扩展到百万级别；3）支持多模态；4）测试集结果优于同等参数规模的 Transformer 模型。但从工程实现来看，暂时未得到大范围的使用。Google 也探索了循环神经网络的递归机制与局部注意力机制的结合；KAN 的提出也从底层替换了 Transformer 的基础单元 MLP（多层感知机）。但我们认为，以上方法都缺乏大量的工程实践和成熟的工程工具，短期内替换掉 Transformer 可能性不大。

全球首个基于 Mamba 架构的生产级模型发布，Mamba 开始得到落地验证。24 年 3 月， AI21 发布世界首个 Mamba 的生产级模型 Jamba，融合了 Mamba+Transformer+MoE 等不同类型的大模型技术。Jamba 基本信息如下：1）共 52B 参数，其中 12B 在推理时处于激活状态；2）共 16 位专家，推理过程中仅 4 个专家处于活跃状态；3）模型基于 Mamba，采用 SSM-Transformer 混合的架构；4）支持 256K 上下文长度；5）单个 A100 80GB 最多可支持 140K 上下文；6）与 Mixtral 8x7B 相比，长上下文的吞吐量提高了 3 倍。从测评结果看，Jamba 在推理能力上优于 Llama 2 70B、Gemma 7B 和 Mixtral 8x7B。Mamba 架构开始得到验证。

Google RecurrentGemma 架构也与 Transformer 不同，是另一种新的路线探索。 RecurrentGemma 基于 Google 开源的小模型 Gemma，在此基础上，引入了循环神经网络（RNN）和局部注意力机制来提高记忆效率。由于传统的 Transformer 架构中，需要计算两两 token 之间的注意力机制，因此时间和空间复杂度均随着 token 的增加而平方级增长。由于 RNN 引入的线性递归机制避免了平方级复杂度，RecurrentGemma 带来了以下几个优势：1）内存使用减少：在内存有限的设备（例如单个 XPU）上生成更长的样本。2）更高的吞吐量：由于内存使用量减少，RecurrentGemma 可以以显着更高的 batch 大小执行推理，从而每秒生成更多的 token（尤其是在生成长序列时）。更重要的是，RecurrentGemma 展示了一种实现高性能的非 Transformer 模型，是架构革新的重要探索。

展望#6：AI Agent 智能体是 AGI 的加速器

计算机科学中 Agent 指计算机能够理解用户的意愿并能自主地代表用户执行任务。Agent （中文翻译智能体、代理等）概念起源于哲学，描述了一种拥有欲望、信念、意图和采取行动能力的实体。将这个概念迁移到计算机科学中，即意指计算机能够理解用户的意愿并能自主地代表用户执行任务。随着 AI 的发展，AI Agent 用来描述表现出智能行为并具有自主性、反应性、主动性和社交能力的人工实体，能够使用传感器感知周围环境、做出决策，然后使用执行器采取行动。 AI Agent 是实现人工通用智能（AGI）的关键一步，包含了广泛的智能活动潜力。2020 年， Yonatan Bisk 在《Experience Grounds Language》中提出 World Scope (WS)，来描述自然语言处理到 AGI 的研究进展，包括 5 个层级：WS1. Corpus (our past)；WS2. Internet (most of current NLP)；WS3. Perception (multimodal NLP)；WS4. Embodiment；WS5. Social。据复旦大学 NLP 团队，纯 LLM 建立在第二个层次上，即具有互联网规模的文本输入和输出。将 LLM 与 Agent 技术架构结合，并配备扩展的感知空间和行动空间，就有可能达到 WS 的第三和第四层。多个 Agent 可以通过合作或竞争来处理更复杂的任务，甚至观察到涌现的社会现象，潜在地达到第五 WS 级别。

AI Agent 主要由 LLM 大脑、规划单元、记忆单元、工具和行动单元组成。不同研究中的 AI Agent 框架组成略有差别。比较官方的定义是 OpenAI 安全系统负责人 Lilian 提出的，她将 Agent 定义为 LLM、记忆（Memory）、任务规划（Planning Skills）以及工具使用（Tool Use）的集合，其中 LLM 是核心大脑，Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件。此外，复旦大学 NLP 团队也提出了由大脑、感知和动作三部分组成的 AI Agent 框架。

吴恩达教授指出，LLM 加上反思、工具使用、规划、多智能体等能力后，表现大幅提升。斯坦福大学教授、Amazon 董事会成员吴恩达在红杉美国 AI Ascent 2024 提出，如果用户围绕 GPT-3.5 使用一个 Agent 工作流程，其实际表现甚至好于 GPT-4。其中，反思指的是让模型重新思考其生成的答案是否正确，往往会带来输出结果的改进；工具使用包括调用外部的联网搜索、日历、云存储、代码解释器等工具，补充模型的能力欠缺；多智能体协作指的是多种智能体互相搭配来完成一个复杂任务，每种智能体会负责自己所擅长的一个领域，类似人类社会之间的协作，实现超越单个智能体能达到的效果。

Agent 相关研究处于爆发期。伴随 LLM 的快速迭代发展，基于 LLM 的 AI Agent 涌现，典型的如 Auto-GPT、微软的 HuggingGPT、斯坦福小镇 Generative Agent、Nvidia Voyager 等。24 年 3 月，AI 初创公司 Cognition 发布第一个 AI 软件工程师自主智能体 Devin，能够使用自己的 shell、代码编辑器和 Web 浏览器来解决工程任务，并在 SWE-Bench 基准测试上正确解决了 13.86%的问题，远超之前方法的正确率。我们认为，2024 年基于 AI Agent 的应用和产品仍将会继续涌现，其效果也将持续受益于大模型能力的提升，AI Agent 将成为实现 AGI 的重要助推器。

展望#7：具身智能与 LLM 结合落地加速

AI 龙头公司在具身智能领域有模型、框架层面的丰富研究成果。23 年 5 月，Nvidia CEO 黄仁勋指出，AI 的下一个浪潮将是具身智能。各个 AI 头部厂商均有相关的研究成果。23 年年初，微软的 ChatGPT for Robotics 初次探讨了 LLM 代替人工编程，来对机器人实现控制。Google 延续了 2022 年的具身智能成果，将 RT 系列模型升级到视觉动作语言模型 RT-2，将 Gato 升级到能自我迭代的 RoboCat，并开源了迄今最大的真实机器人具身智能数据集 Open X-Embodiment。Nvidia 也有 VIMA 和 OPTIMUS 等具身智能研究，并在 24 年 2 月成立了专门研究具身智能的小组 GEAR。斯坦福李飞飞教授的 VoxPoser 结合视觉模型和语言模型优势，建模了空间 Value Map 来对机器人轨迹进行规划。Meta 也发布 RoboAgent，并在训练数据集收集上利用了自家的 CV 大模型 SAM。

2024 年，具身智能仍是 LLM 重要的终端落地场景，技术仍在持续迭代。1）24 年 1 月，斯坦福大学发布 Mobile ALOHA 机器人，利用模仿学习，在人类做出 50 个示例后，机器人即能自行执行下游任务。2）同月，Google 一次性发布了三项具身智能成果。Auto-RT 解决机器人数据来源问题，通过 LLM 和 VLM（视觉语言模型）扩展数据收集；SARA-RT 显着加快了 Robot Transformers 的推理速度；RT-Trajectory 将视频转换为机器人轨迹，为机器人泛化引入了以运动为中心的目标。3）AI 机器人公司 Figure 推出了 Figure 01，采用端到端 AI 神经网络，仅通过观察人类煮咖啡即可在 10 小时内完成训练。4）从目前 Tesla Optimus 发布视频情况看，Optimus 的神经网络已经能够指导机器人进行物品分拣等动作，且控制能力进一步提高。

OpenAI 与 Figure AI 率先合作，实现了大模型对具身智能的赋能。24 年 3 月，OpenAI 官方宣布与 Figure AI 机器人公司合作，将多模态模型扩展到机器人感知、推理和交互。宣布合作 13 天后，Figure 01 已经与 OpenAI 的视觉语言模型结合，并发布了演示视频。 ChatGPT 从顶层负责用户交互、环境感知（依靠 vision 视觉能力）、复杂问题拆解，而 Figure 01 自身的神经网络和控制系统负责底层的自主任务执行，实现了强交互的自主任务执行。随后，国内大模型厂商百度与机器人整机厂商优必选也宣布合作，“复刻”了 OpenAI+Figure 的合作路线，由文心大模型负责交互推理、优必选 Walker X 负责底层任务实现。我们认为，多模态大模型和机器人结合的路线已经走通，随着 24 年模型能力持续迭代（GPT-4o 的出现），以及人形机器人自主和控制能力的加强，LLM+具身智能落地加速，并将更加可用、好用。

GPT-5 的几个预期

OpenAI 从 GPT-3 开始实行闭源商业化路线，相关的模型技术几乎不再公布细节。我们基于对全球大模型发展趋势的研究和把握，提出几个 GPT-5 可能的预期和展望，并给出相应的推测逻辑。

预期#1：MoE 架构将延续，专家参数和数量或变大

MoE 是现阶段实现模型性能、推理成本、模型参数三者优化的最佳架构方案。1）MoE 将各种专家通过路由（router）机制有机整合，在各种下游任务上，能够充分利用每个专家的专业能力，提高模型表现；2）MoE 天然的稀疏架构，使得 MoE 模型与同参数稠密模型在推理成本上有较大节省；3）同理，在推理成本固定的情况下，MoE 模型相比稠密模型，能够把模型参数堆到更大，同样能够提升模型性能。我们认为，OpenAI 在 GPT-5 模型迭代时仍将采用 MoE 架构，或有部分改进。相比 GPT-4， GPT-5 的 MoE 架构或将有以下改进：1）每个专家的参数更大，例如每个专家大小与 GPT-4 相同，近 2T 参数。即使 OpenAI 无法将单个 2T 参数专家做成稠密架构，也可以使用 MoE 嵌套 MoE 的方式实现。2）专家数量变多，例如幻方旗下 DeepSeek V2 模型即使用改进的 DeepSeekMoE 架构，采取了更细粒度的专家结构，将专家数扩展到 160+，以适应更加丰富和专业的下游任务。3）MoE 架构本身可能有改进，例如 Google DeepMind 提出了 Mixture of Depth（MoD）架构，向 Transformer 的不同层（layer）引入类似 MoE 的路由机制，对 token 进行选择性处理，以减少推理成本。MoD 可以和 MoE 混合使用，相当于对 MoE 进行了改进。OpenAI 或也会有类似的改进技术。

预期#2：GPT-5 及之后模型的训练数据集质量更高、规模更大

OpenAI 不断加速与私有高质量数据公司的合作进度，为训练大模型做数据储备。2023 年 11 月，OpenAI 即官宣推出数据合作伙伴计划，将与各类组织合作生成用于训练 AI 模型的公共和私有数据集，包括冰岛政府、非营利法律组织“Free Law Project”等。2024 年， OpenAI 在 4-5 月先后与英国金融时报、程序员交流网站 Stack Overflow、论坛网站 Reddit 宣布合作，相关数据覆盖了新闻、代码、论坛交流等场景。我们认为，OpenAI 在早期的数据储备中，已经将网络公开可获得的数据进行了充分的开发，根据 OpenAI 的 Scaling Law 和 Google Chinchilla 的结论，随着模型参数的增大，想要充分训练模型，必须增大训练数据规模，这也从 OpenAI 的广泛数据合作关系中得到印证。我们认为，GPT-5 及之后模型的训练数据集，将有望吸纳更多高质量的私域数据，数据规模也将变得更大。

预期#3：在思维链 CoT 的基础上，再加一层 AI 监督

思维链能够在不改变模型的情况下提高其表现性能。 2022 年， Jason Wei 在《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中首次提出思维链（chain of thought，CoT）概念，使模型能够将多步骤问题分解为中间步骤。通过思维链提示，足够规模（~100B 参数）的语言模型可以解决标准提示方法无法解决的复杂推理问题，提高各种推理任务的表现。以算数推理 MultiArith 和 GSM8K 为例，当使用思维链提示时，增加 LaMDA 和 PaLM 模型参数可以显著提高性能，且性能大大优于标准提示。此外，思维链对于模型的常识推理任务（如 CommonsenseQA、StrategyQA 和 Date Understanding 等）同样有明显的性能提升作用

OpenAI 探索了过程监督对模型的性能提升，有望与 CoT 结合，进一步提高推理能力。23 年 5 月，OpenAI 官方 blog 宣布训练了一个奖励模型，通过奖励推理的每个正确步骤（“过程监督”），而不是简单地奖励正确的最终答案（“结果监督”），来更好的解决模型的数学推理能力和问题解决能力。与结果监督相比，过程监督有优势：1）过程监督相当于直接奖励了模型遵循对齐的 CoT，流程中的每个步骤都受到精确的监督；2）过程监督更有可能产生可解释的推理，因为它鼓励模型遵循人类思考的过程。最终的 MATH 测试集结果中，过程监督能够提升相对于结果监督 5pct 以上的正确率。我们认为，这种基于 CoT 的过程监督方法，有可能帮助 GPT-5 进一步提高模型推理的正确性，压制模型幻觉。

预期#4：支持更多外部工具调用的端到端模型

GPT-5 有望在 GPT-4 少量的外部工具基础上，增加更多的可调用工具，扩展能力边界。目前基于 GPT-4 系列的 ChatGPT，能够调用 Bing 搜索、高级数据分析（原代码解释器）、 DALL-E 文生图等外部工具，并且在 23 年 11 月推出 All Tools 能力，让 ChatGPT 在与用户对话时自主选择以上三种工具。外部工具调用使得模型在性能基本保持不变的情况下，能力边界得到扩展，其实质与 Agent 调用工具类似。此外，曾在 23 年 3 月推出的 ChatGPT Plugins 功能，本质也是外部工具，但是由于 GPT-4 能力的有限，导致能够在单个对话中使用的 Plugins 只有三个，因此 Plugins 逐渐被 GPTs 智能体取代。我们认为，随着 GPT-5 推理能力的进一步提高，将有能力更好的自主分析用户需求，以更合理的方式，调用更多的外部工具（100-200 个），如计算器、云存储等，从而进一步扩展 GPT-5 的模型能力边界。

GPT-4o 已经打下多模态端到端的基础，GPT-5 将延续。我们认为，GPT-4o 验证了头部厂商大模型原生多模态的发展趋势，这一趋势不会轻易改变，因为端到端的原生多模态，很好的解决了模型延时（如 GPT-4 非端到端语音响应平均时间超 5s，而 4o 端到端语音响应时间平均仅 320ms）、模型误差（由于误差是不可避免的，级联的模型越多，误差累计越大，端到端仅 1 份误差）等问题，因此 GPT-5 将延续端到端多模态结构，或将有部分改进。如进一步降低端到端的响应延迟，优化用户使用体验；加入更多的模态支持，如深度、惯性测量单位（IMU）、热红外辐射等信息，以支持更复杂的如具身智能等场景。

预期#5：多种大小不同的参数，不排除推出端侧小模型

Google 和 Anthropic 均在同代模型中推出参数大小不同的版本，GPT-5 有望跟进。Google 和 Anthropic 均采取了同代模型、不同大小的产品发布策略，以平衡用户的成本和性能体验。据海外开发者 Tibor Blaho 信息，ChatGPT 安卓版安装包 1.2024.122 版本中发现了三个新的模型名称：gpt-4l，gpt-4l-auto，gpt-4-auto，其中 l 代表 “lite”（轻量），或是 OpenAI 开始考虑布局大小不同的模型矩阵。由于 Google 官方已经实现了最小参数的 Gemini Nano 模型在 Pixel 8 Pro 和三星 Galaxy S24 系列实装，且据 Bloomberg 信息，OpenAI 与 Apple 正在探索端侧模型上的合作，我们预测，GPT-5 也有可能推出端侧的小参数模型版本。

预期#6：从普通操作系统到 LLM 操作系统

LLM 操作系统是 Agent 在系统层面的具象化。LLM OS 是前 OpenAI 科学家 Andrej Karpathy 提出的设想，其中 LLM 将替代 CPU 作为操作系统核心，LLM 的上下文窗口是 RAM，接受用户指令并输出控制指令，在 LLM 核心外部有存储、工具、网络等各种“外设” 供 LLM 调用。我们认为，从结构上看，LLM OS 和图表 67 所示的 Agent 架构十分相似，可以看做 Agent 在操作系统领域的具象化。LLM OS 的核心就是模型能力，随着 GPT-5 推理性能的不断提升，我们认为 LLM 和 OS 结合的范式将更有可能实现，届时人类和 OS 的交互方式将不再以键鼠操作为主，而会转向基于 LLM 的自然语言或语音操作，进一步解放人类双手，实现交互方式的升级。

预期#7：端侧 AI Agent 将更加实用和智能

OpenAI 和 Google 已经将模型的重点使用场景定位到端侧 AI Agent。24 年 5 月 13-14 日， OpenAI 和 Google 分别召开发布会和开发者大会，其中最值得关注和最亮眼的部分就是端侧 AI Agent。OpenAI 基于最新的端到端 GPT-4o 模型打造了新的 Voice Mode，实现了更拟人、更个性化、可打断、可实时交互的 AI 助手，并能够使用 4o 的视觉能力，让助手针对用户看到的周围环境和PC场景进行推理；Google的Project Astra也实现了类似的效果，并且能够根据模型“看到”的场景进行 recall。我们认为，头部模型厂商遵循了模型边迭代、应用边解锁的发展路径，目前已经将模型的使用场景聚焦到了端侧。结合 OpenAI 与 Apple 的合作进展看，端侧 AI 或将在 24 年下半年成为重点。

更加智能的 GPT-5 能够将 AI Agent 能力推上新的台阶。我们认为，OpenAI 在第四代 GPT 的大版本下，已经通过端到端的 4o 实现了 AI Agent 更实时、更智能的多模态交互。但是基于目前模型的推理性能，AI Agent 在实现多任务、多步骤的自主任务执行时成功率仍不够高。以 PC 端基于 GPT-4 的 AI 软件工程师智能体 Devin 为例，在 SWE-Bench 基准测试（要求 AI 解决 GitHub 上现实世界开源项目问题）上进行评估时，Devin 在没有人类协助的情况下能正确解决 13.86%的问题，远远超过了之前最好方法对应的 1.96%正确率，即使给出了要编辑的确切文件，Claude 2 也只能成功解决 4.80%的问题。但是 13.86%的成功率，仍然距离实用较远，究其原因还是模型的智能能力“不够”。我们认为，随着 GPT-5 核心推理能力进一步提高，或能将“类 Devin”产品正确率提升到 80%以上，AI Agent 将变得更加实用和智能。

理想 vs 现实：从 AI+到+AI

据 Ericsson 白皮书《Defining AI native》，AI 与系统可以分为非原生和原生两类。对于非 AI 原生（None AI-native）系统，又可根据 AI 组件的部署方式细分为：1）替换已有部件。即在现有的系统组件中，将其中的一部分用基于 AI 的组件进行替换或增强。2）增加新的部件。即不改变现有系统中组件的情况下，增加一部分基于 AI 的组件。3）增加 AI 控制。同样不改变现有系统的组件，增加基于 AI 的控制组件部分，来对已有组件进行控制，在传统功能之上提供自动化、优化和额外功能。对于 AI 原生（AI-native）系统，系统中所有的组件均基于 AI 能力构建，整个 AI 原生系统拥有内在的、值得信赖的 AI 功能，AI 是设计、部署、操作和维护等功能的自然组成部分。

AI+指的是 AI 原生形式，是理想的 AI 应用和硬件构建方法，但是目前的大模型能力还无法很好的支持这一实现。在 AI+应用方面，典型的如 AI 原生搜索类应用 Perplexity。据 SimilarWeb 数据，2023 年 1 月-2024 年 5 月，Perplexity 每月的网站访问量不断提升，截至 24 年 5 月，月网站访问量已经达到了近 9000 万，较大幅度领先于同样做 AI 原生搜索的 You.com。但是从搜索引擎的全球市占率看，据 Statcounter 数据，Google 的搜索引擎市占率从 23 年 1 月的 92.9% 仅微降到 24年 5月的 90.8%，Bing的市占率从 23年 1月的 3.03%微升到 24年 5月的 3.72%。我们认为，目前为止，AI 原生的搜索应用并未对传统搜索产生本质影响。

在 AI+硬件方面，代表产品为 Ai Pin 和 Rabbit R1。23 年 11 月，智能穿戴设备公司 Humane 发布基于 AI 的智能硬件 Ai Pin，由 GPT 等 AI 模型驱动，为 AI 原生的硬件，支持激光屏、手势、语音等操作。24 年 4 月，Rabbit 推出 AI 驱动的硬件 R1，大小约为 iPhone 的一半。 R1 用户无需应用程序和登录，只需简单提问，就能实现查询、播音乐、打车、购物、发信息等操作。R1 内部运行 Rabbit OS 操作系统，基于“大型动作模型”（Large Action Model， LAM）打造，而非类似于 ChatGPT 的大型语言模型。LAM 可以在计算机上理解人类的意图，借助专门的 Teach Mode，用户可以在计算机上演示操作，R1 将进行模仿学习。但是以上两款产品发布后，据 BBC 和 Inc 等信息，产品的用户体验一般，问题主要包括 AI 模型响应过慢、对网络通畅性要求过高、无法端侧推理、电池发热严重等。

+AI 指的是非原生 AI 形式，在成熟的软硬件系统上叠加一定的 AI 功能，更符合当前模型的能力，或成为近期的迭代重点。在+AI 应用方面，微软的 Copilot 系列是典型的成熟 SaaS+AI 应用。从功能覆盖来看，微软基于成熟的操作系统、企业办公、客户关系管理、资源管理、员工管理、低代码开发等业务环节，上线了 Copilot 相关功能，并初步实现各应用间的 Copilot 联动。据微软 24Q1 财报数据，Github Copilot 用户数已超 50000 家，付费用户人数 180 万人，Windows 系统层面的 Copilot 装机量约 2.3 亿台。

另一个+AI 的典型应用是 Meta 的推荐算法+AI 大模型赋能。据 4 月 19 日扎克伯格访谈， Meta 从 22 年即开始购入 H100 GPU，当时 ChatGPT 尚未问世，Meta 主要利用这些算力开发短视频应用 Reels 以对抗 Tiktok，其中最核心的就是推荐算法的改进。2024 年 4 月， Meta 发布生成式推荐系统论文《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations 》，开创性提出了基于 Transformer 的生成式推荐（Generative Recommenders ,GRs）架构（更具体细节可以参考华泰计算机 5 月 23 日报告《云厂 AI 算力自用需求或超预期》）。据 Meta 24Q1 电话会，截至 24Q1，Facebook 上约有 30%的帖子是通过 AI 推荐系统发布的，在 Instagram 上看到的内容中有超过 50%是 AI 推荐的，已经实现了推荐引擎+AI 对推荐和广告业务的赋能。

在+AI 硬件方面，在成熟的 PC 和手机上已经探索出了硬件+AI 的演进道路。虽然原生的 AI 硬件如 Ai Pin 和 Rabbit R1 并未取得巨大成功，但是微软、联想的 AI PC 布局，以及 Apple 的 AI 手机布局已经清晰。从目前各厂商终端侧模型布局看，有以下特点：

1）端侧模型参数量普遍在 100 亿参数以下。端侧能够支持的模型参数大小，重要的取决因素是 NPU（神经处理单元）的算力多少，以及内存 DRAM 的大小。端侧最先进的芯片 NPU 算力基本在 40TOPS 左右，支持的参数一般在百亿级别。

2）端云协同模式将长期存在。由于端侧模型参数量有限，导致无法处理较复杂的任务，因此还需要依赖云端或服务器端的模型配合。高通于 23 年 5 月发布白皮书《混合 AI 是 Al 的未来》，指出 AI 处理能力持续向边缘转移，越来越多的 AI 推理工作负载在手机、笔记本电脑、XR 头显、汽车和其他边缘终端上运行。终端侧 AI 能力是赋能端云混合 AI 并让生成式 AI 实现全球规模化扩展的关键。此外，以 Apple Intelligence 的模型布局为例，其中的编排层（Orchestration）会根据任务难易决定推理使用终端模型还是云端模型。我们认为，这种端云协同的方式在端侧+AI 的形式下有望长期存在。

3）Arm 架构芯片布局略快于 x86 架构。微软的第一批 Copilot+ PC 搭载的高通骁龙 X Elite 芯片和 Apple 自研的 M 系列芯片，均是基于 Arm 架构打造。AMD 和 Intel 的 x86 架构 AI PC 芯片在时间上略有落后。我们认为，Arm 架构有望在终端+AI 领域提高市场份额，但是最终 Arm 和 x86 的格局尚需观察。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

精选报告来源：【未来智库】。未来智库 - 官方网站

计算机行业深度研究：全球大模型将往何处去？

大模型复盘：全球格局与模型特点基本明晰

大模型展望：Scaling Law + AI Agent + 具身智能

GPT-5 的几个预期

理想 vs 现实：从 AI+到+AI

继续阅读

Meta 推出文生 3D 模型「重磅炸弹」，一秒生成 3D 素材

扎克伯格：标榜最大、最快的大模型没意义，Llama4将提升推理能力

行业本质理论是生产要素创新性配置的新质生产力理论

外资加码中国专业养老保险公司，行业终拉开下一序幕？

底部可期？房地产行业积极信号持续累积，7月开门红，显著跑赢大盘

对话蚂蚁支小宝团队：国内大模型竞争加剧，AI金融管家如何释放更大价值？｜直击WAIC 2024

多个豪门精选！大模型中锋可入！实况足球球队支柱精选兑换建议！

中国热塑性聚烯烃膜行业市场研究报告

中国饲料蛋白酶行业市场研究报告

Anthropic推动第三方人工智能模型评估

三星即将入局苹果暗中窥伺智能戒指是行业下一风口?

“专门用于侵入、非法控制计算机信息系统的程序、工具”司法认定

行业白热化竞争陕汽上半年迎来逆势飞扬

中金员工月薪下降与行业生态的深刻反思

行业资讯|如何看待赛力斯25亿元收购问界商标？

栋见趋势：成熟行业龙头或率先出现向上拐点