天天看點

計算機行業深度研究:全球大模型将往何處去?

作者:未來智庫

(報告出品方/作者:華泰證券,謝春生、袁澤世)

大模型複盤:全球格局與模型特點基本明晰

2023 年是大模型(LLM)技術和應用快速疊代的一年。重要催化劑是 22 年 11 月底釋出的 ChatGPT。ChatGPT 雖然在技術基座上是之前已經問世的 GPT-3 和 InstructGPT,但它給 了全球使用者一個與 LLM 互動的自然語言界面,極大拉近了 LLM 與普通大衆的距離,引起了 資本的關注,成為大模型技術加速疊代的導火索。微軟、Google、Meta、Nvidia 等龍頭大 廠,OpenAI、Anthropic、Mistra 等初創公司,以及斯坦福、清華、上交等學術機構,引領 了 23 年的 LLM 發展。LLM 技術也從模型本身擴充到端側、AI Agent、具身智能等更廣泛 的領域。此外,在大模型技術應用上,一方面,雲 SaaS 廠商将 AI 賦能于傳統 SaaS 軟體, 如微軟 Copilot 和 Adobe Firefly;另一方面,以 AI 為核心的應用興起,如 AI 搜尋 Perplexity, 文生圖 Stable Diffusion、Midjourney、DALL-E,文生視訊 Runway、Pika、Sora 等。

全球格局:海外技術收斂,國内百花齊放

海外閉源大模型已經形成 OpenAI 為首,Google、Anthropic 等模型緊随的格局。閉源模 型中,雖然 Google Gemini 和 Anthropic 分别于 24 年 2 月和 3 月更新了 1.5 Pro(Gemini 1.0 是在 23 年 12 月)和 Claude 3,在上下文長度、數學、編碼、專業領域等能力測評上超過 了 GPT-4,但是考慮到:1)GPT-4 和 4 Turbo 實質上為 23 年 3 月 GPT-4 系列的疊代,比 Gemini 和 Claude 3 早推出近一年;2)ChatGPT 對多模态、App 語音互動、工具調用(聯 網、進階資料分析)、智能體(GPTs)等能力進行了有機整合;3)根據 UC 伯克利大學 Chatbot Arena 的榜單(該榜單為使用者盲測模型評價的結果,較為客觀),GPT-4 的使用者體驗仍是頭 部頂尖水準;4)GPT-5 已在訓練中;5)GPT-4o 的端到端能力再次提升。是以,我們認 為,OpenAI 的技術仍處于暫時領先。

Meta 的 Llama 系列作為開源模型,具有格局上的特殊性和分界性。海外模型廠商如果在 模型性能上無法超越同代的開源 Llama 模型(據 Meta 官網 4 月 18 日資訊,Llama 3 的 8B 和 70B 先行版小模型已經釋出,最大的 400B 參數正在訓練),則很難在海外基礎模型中占 據一席之地,除非模型具有差異化應用場景,典型的如陪伴類應用 Character.ai。此外,除 了頭部大參數模型,能夠超過同代 Llama 的較小參數或者有獨特使用體驗的模型,也會得 到使用者青睐,典型的如:1)馬斯克旗下 xAI 的 Grok-1(已開源)、Grok-1.5(未開源),能 夠獨家使用 X 平台上的資料,較好的響應使用者實時資訊查詢需求;2)法國大模型初創公司 Mistral,開源了 Mistral 7B、Mixtral 8x7B-MoE 小模型,适配算力受限的端側等平台,随後 又轉入閉源模型,更新了性能更強的 Mistral-medium 和 large,并與微軟合作,在 Azure 上為使用者提供 API。

計算機行業深度研究:全球大模型将往何處去?

國内模型百花齊放,網際網路大廠、初創公司、科技企業均有代表性模型産品。國内模型技 術辨識度不高,據 SuperCLUE 測評結果榜單,頭部的國内模型在得分上相差并不顯著。在 國内主流的模型中,網際網路廠商和科技企業在大模型上起步較早,如百度在 GPT-4 釋出的 後一天即 23 年 3 月 15 日釋出文心一言,23 年 3 月 29 日 360 智腦 1.0 釋出,23 年 4 月通 義千問上線,23 年 5 月 6 日訊飛星火 1.0 釋出。進入 24 年,初創公司的大模型産品得到 了更廣泛的關注,例如 24 年 3 月月之暗面更新 Kimi 智能助手 200 萬字的上下文支援能力, 直接引發了百度、360 等廠商對長上下文的适配。同月階躍星辰 STEP 模型釋出,其 STEP 2 宣稱為萬億參數 MoE 模型,直接對标 GPT-4 的參數(一般認為是 1.8 T 參數的 MoE), 在大多數國内模型以千億參數為主的環境下,将參數量率先提升到萬億級别。4 月,MiniMax 也釋出了萬億參數 MoE 架構的 abab 6.5。

特點#1:大模型與小模型同步發展

根據 Scaling Law,更大參數、更多資料和更多算力能夠得到更好的模型智能。2020 年 1 月,OpenAI 釋出論文《Scaling Laws for Neural Language Models》,奠定了 Scaling Law (縮放定律)的基礎,為後續 GPT 的疊代指明了大參數、大算力方向。Scaling Laws 是一 種經驗性質的結論,并非完備的數學理論推導。OpenAI 在 decoder-only Transformer 架構 的特定配置下進行了詳盡的實驗,摸清了模型性能(用模型 Loss 衡量,Loss 越小性能越 好)與參數(N)、資料集 token(D)和投入訓練算力(C)的關系——N、D、C 是影響 Loss 最顯著的因素,三者增加将帶來更好的模型性能。Transformer 架構中的層數、向量 寬度等其它參數并不構成主要影響因素。

根據 Scaling Law 論文,可以用 6ND 來估算模型所需要的訓練算力(以 FLOPs 為機關)。 Transformer 架構涉及了多種參數,包括層數(nlayer)、殘差流維數(dmodel)、前饋層維數 (dff)、注意力機制輸出維數(dattn)、每層注意力頭數(nhead)、輸入上下文 token 數(nctx) 等。在訓練資料進入 Transformer 解碼器後,每一步運算都會涉及相應的參數,并對應有需 求的算力。據 OpenAI 測算,單個 token 訓練時在 Transformer 解碼器中正向傳播,所需 FLOPs(每秒浮點運算數)為 2N+2nlayernctxdattn。由于在論文寫作于 2020 年,當時模型上 下文長度 nctx并不長,滿足 dmodel> nctx/12,是以 2N+2nlayernctxdattn可約等于 2N。在訓練中 反向傳播時,所需算力約為正向的 2 倍(即 4N),是以單個 token 訓練全過程需要算力總 共 6N FLOPs,考慮全部的訓練 token 數 D,共需算力近似 6ND FLOPs。在推理時,為了 計算友善,通常采用正向訓練算力需求 2ND 來計算所需 FLOPs。 值得注意的是,目前 Claude 3、Gemini 1.5 Pro、Kimi 智能助手等大模型支援的上下文 長度遠超當年,dmodel > nctx/12 不再滿足,是以 2nlayernctxdattn 應予以考慮。即上下文長度 更長時,訓練需求的算力是高于 6ND 的。

在 Scaling Law 指導下,OpenAI 延續了大參數模型的路線。2020 年 1 月 Scaling Laws 論文發表後不久,2020 年 5 月 GPT-3 系列問世,将參數從 GPT-2 的 15 億提升到 1750 億, 訓練資料大小從 40G 提升到 570G(資料處理後,處理前資料量更大),分别提升了 100+ 倍和 14 倍。到了 GPT-4,雖然 OpenAI 官方未公布參數大小,但是根據 SemiAnalysis 的 資訊,目前業界基本預設了 GPT-4 是 1.8 萬億參數的 MoE 模型,訓練資料集包含約 13 萬 億個 token,使用了約 25,000 個 A100 GPU,訓練了 90 到 100 天,參數量、資料集和訓 練所需算力相比 GPT-3 又有數量級的提升。OpenAI 在不斷踐行 Scaling Law,将模型的參 數以及模型的智能提升到新的層級。

從 Google 和 Anthropic 的模型布局看,印證了大參數能帶來模型性能的提升。Google 的 Gemini 和 Anthropic 的 Claude 3 系列均分别提供了“大中小”三款模型,雖然兩家廠商并 未給出模型參數、訓練資料細節,但是均表示更大的模型智能更強, 推理速度相對較慢,所需的算力和訓練資料也相應更多,是對 Scaling Law 的印證。此外, 我們梳理了全球主流模型廠商的參數情況,同樣發現旗艦模型的參數量仍在變大。

我們認為,全球頭部閉源模型的參數目前呈現的規律是:跨代際更新,模型參數進一步加 大;同代際更新,随着模型技術架構優化和軟硬體資源協同能力提高,在模型性性能不降 的情況下,參數或做的更小。Google 和 OpenAI 的最新模型都呈現了這個趨勢。24 年 5 月 13 日,OpenAI 釋出了 GPT-4o 模型,在多模态端到端的架構基礎上,實作了更快的推 理速度,以及相比于 GPT-4 Turbo 50%的成本下降,我們推測其模型參數或在下降。5 月 14 日 Google 釋出了 Gemini 1.5 Flash,官方明确指出 Flash 是在 Pro 的基礎上,通過線上 蒸餾的方式得到,即 Flash 的參數小于 Pro。

大參數并不是唯一選擇,小參數模型更好适配了終端算力受限的場景。Google 的 Gemini 系列是典型代表,其最小的 Nano 包括 1.8B 和 3.25B 兩個版本,并且已經在其 Pixel 8 Pro 和三星 Galaxy S24 上實作部署,取得了不錯的終端 AI 效果。此外,Google 在 24 年 2 月 開源了輕量級、高性能 Gemma(2B 和 7B 兩種參數版本),與 Gemini 模型技術同源,支 持商用。Google 指出,預訓練和指令調整的 Gemma 模型可以在筆記本電腦、工作站、物 聯網、移動裝置或 Google Cloud 上運作。微軟同樣在 23 年 11 月的 Ignite 大會上提出了 SLM(小語言模型)路線,并将旗下的 Phi 模型更新到 Phi-2,參數大小僅 2.7B,性能超過 7B 參數的 Llama 2。24 年 4 月 Phi-3 釋出,最小參數僅 3.8B,其性能超過參數量大其兩倍 的模型,5 月微軟 Build 大會上,Phi-3 系列參數為 7B 和 14B 的模型釋出。

Mistral釋出的 7B和 8x7B 模型也是開源小模型的典型代表。法國人工智能初創公司 Mistral AI 成立于 2023 年 5 月,其高管來自 DeepMind、Facebook 等核心 AI 團隊。2023 年 9 月 和 12 月,Mistral 分别開源了 Mistral-7B(73 億參數)和 Mixtral-8x7B-MoE(467 億參數, 8 個 專 家 )。 Mistral-7B 在多項測試基準中優于 130 億 參 數 的 Llama 2-13B 。 Mixtral-8x7B-MoE 在大多數測試基準上超過 Llama 2,且推理速度提高了 6 倍;與 GPT-3.5 相比,也能在多項測評基準上達到或超過 GPT-3.5 水準。在小參數開源模型中,Mistral 的 競争力很強。Mistral 推出的平台服務 La plateforme 也支援模型的 API 調用。

小參數模型的訓練算力需求仍在變大,定性看,訓推算力需求空間可觀。雖然模型參數較 小,但是為了提高性能,模型廠商均投入了大量的訓練資料。如Phi-2有1.4T訓練資料tokens, Phi-3 為 3.3T tokens,Gemma 為 6T/2T tokens(分别對應 7B 和 2B 模型)。24 年 4 月 Meta 率先開源的兩個 Llama 3 系列小模型 8B 和 70B,對應的訓練 token 已經達到了 15T,并且 Meta 表示,即使已經使用了 15T 的訓練資料,仍能看到模型性能的持續提升。我們認為, 雖然單個小模型相比于大模型訓練算力需求并不大,但是一方面小模型本身的訓練資料集 在不斷增加,另一方面,未來在終端 AI PC 和手機,甚至車機和機器人上,都有可能部署 終端模型,是以定性看,小模型總體的訓練和推理算力需求仍然可觀。

特點#2:原生多模态逐漸成為頭部大模型的标配能力

OpenAI 的 GPT 系列在全球閉源大語言模型廠商中率先适配多模态能力。抛開專門的多模 态模型/産品,如文生圖 Stable Diffusion / Midjourney / DALL-E,文生視訊 Sora / Runway / Pika / Stable Video Diffusion 外,在頭部閉源 LLM 中,OpenAI 的 GPT-4 最先引入多模态 能力。23 年 3 月,GPT-4 技術報告中即展示了 GPT-4 支援文本和圖像兩種模态作為輸入。 9 月 25 日,OpenAI 官方 Blog 宣布 GPT-4 的 Vision(視覺)能力上線,支援多圖和文本的 交錯推理,同時宣布 ChatGPT App 支援語音互動(語音轉文本模型為 Whisper,文本轉語 音模型為 Voice Engine)。23 年 10 月 19 日,OpenAI 旗下新一代文生圖模型 DALL-E 3 在 ChatGPT 中實裝上線,可以通過與 ChatGPT 對話來實作文生圖。

通過模型間非端到端協作,ChatGPT 網頁端和 App 實作了完備的多模态能力支援。随着 OpenAI 的 GPT-4V、DALL-E 3、Whisper、Voice Engine 等模型的上線和更新,OpenAI 将所有的模型協同內建成 pipeline 形式,使得 ChatGPT 能夠實作:1)推理文本;2)了解 圖像;3)生成圖像;4)語音轉文本;5)文本轉語音。ChatGPT 成為 2023 年支援模态最 多的 LLM 産品。

Google 從 PaLM 模型開始即在探索 LLM 向多模态領域的拓展。PaLM 是 Google Gemini 的前一代主要模型系列。2022 年 4 月,Google 的 PaLM 模型問世。PaLM 自身為大語言 模型,僅支援文本模态,但是在 PaLM 的能力之上,Google 将圖像、機器人具身資料轉化 為文本 token 形式,訓練出多模态模型 PaLM-E。此外,還将音頻模态與 PaLM 模型結合, 釋出 AudioPaLM。在醫療領域,Google 先基于 PaLM 訓練出醫療語言模型 Med-PaLM, 随後在 Med-PaLM 基礎上将醫療圖像知識增加到訓練資料中,訓練出醫療領域多模态模型 Med-PaLM M。

Gemini 模型問世後,端到端原生多模态能力成為頭部模型廠商的“标配”能力。2023 年 5 月的 I/O 大會上,Google 宣布了下一代模型 Gemini,但未透露細節。12 月,Gemini 1.0 模型釋出,配備了 Ultra/Pro/Nano 三種參數大小依次遞減的型号。Gemini 同樣支援文本、 圖像、視訊、音頻等多模态,但是其範式和 OpenAI 的 ChatGPT 有很大差別:ChatGPT 屬于多種不同模型的集合,每個模型負責不同的模态,結果可以串聯;而 Gemini 具備端 到端的原生多模态能力,Gemini 模型自身可以處理全部支援的模态。據 The Decoder 信 息,23 年 OpenAI 内部已經在考慮一種代号為“Gobi”的新模型,該模型同樣從一開始就 被設計為原生多模态。我們認為,這種端到端的原生多模态範式将成為未來頭部大模型廠 商實作多模态的主流範式。

Anthropic Claude 模型多模态能力“雖遲但到”,Claude 3 模型科研能力優異。Anthropic 的 Claude 系列模型在 2024 年 3 月更新到 Gen 3 後,全系适配了多模态圖像識别能力,并 在科學圖表識别上大幅超越 GPT-4 和 Gemini 1.0 Ultra。此外,Claude 3 Haiku 有着優秀 的成本控制和推理速度優勢,據 Anthropic 官方,Haiku 的速度是同類産品的三倍,能夠在 一秒内處理約 30 頁的内容(21K token),使企業能夠快速分析大量文檔,例如季度備案、 合同或法律案件,且一美元就能分析 400 個最高法院案例或 2500 張圖檔。

GPT-4o 在 GPT-5 釋出之前實作了端到端的多模态支援,驗證了原生多模态的技術趨勢。 24 年 5 月 14 日 Google I/O 大會前夕,OpenAI 釋出了新版模型 GPT-4o(omni),棄用了 之前 ChatGPT 拼接 GPT-4V、Whisper、DALL-E 的非端到端模式,統一了文本、圖像、音 頻和視訊模态,以端到端的方式,實作了輸入文本、圖像、音頻和視訊,輸出文本、圖像 和音頻,追上了 Google Gemini 的原生多模态進度,并且模态支援更加全面(4o 支援音頻 輸出,Gemini 不支援)。4o 在文本、圖像、音頻等各項名額上均超越了同等級現有模型。

計算機行業深度研究:全球大模型将往何處去?

Claude 3.5 Sonnet增強了UI互動體驗,與GPT-4o的語音互動相比朝着差異化路徑發展。 6 月 21 日,Anthropic 宣布了 Claude 3.5 Sonnet 模型,在價格相比于 Claude 3 Sonnet 不 變的情況下,在研究所學生水準推理、代碼等能力(文本層面),以及視覺數學推理、圖表問答 等能力(視覺層面)上超過了 GPT-4o。Claude 3.5 Sonnet 另一個突出的性能是 UI 互動能 力的增強,主要由 Artifacts 功能實作。當使用者要求 Claude 生成代碼片段、文本文檔或網站 設計等内容時,對話旁邊的專用視窗中将實時出現相應的展示,例如編寫的遊戲、網頁等。 Anthropic 指出,Artifacts 互動方式未來将會從個人拓展到團隊和整個組織協作,将知識、 文檔和正在進行的工作集中在一個共享空間中。我們認為,GPT-4o 和 Claude 3.5 Sonnet 均在優化使用者互動上下功夫,但是兩者的方向存在差異化,GPT-4o 更注重語音互動,而 Sonnet 更注重 UI 界面互動。

國内模型廠商積極适配多模态,以圖像了解能力為主。在 GPT-4 宣布支援多模态後,國内 廠商也積極适配多模态圖檔的識别、了解和推理。截至 2024 年 4 月,國産主流模型多模态 支援情況如下:1)百度文心一言,說圖解畫支援單張圖像推理,支援圖像生成。2)阿裡 通義千問,支援單張圖檔推理,支援圖像生成。阿裡開源的模型 Qwen-VL 支援圖像推理。 3)騰訊混元助手,支援圖像生成,以及單張圖像推理。3)訊飛星火,支援單張圖像推理, 支援圖像生成。4)智譜 ChatGLM 4,支援單張圖像推理,支援圖像生成。5)360 智腦, 支援圖像生成。6)位元組豆包,支援圖像生成。7)Kimi 智能助手,支援圖檔中的文字識别。 月之暗面官方表示 24 年下半年将支援多模态推理。8)階躍星辰基于 Step 模型的助手躍問, 支援多圖推理。

特點#3:上下文作為 LLM 的記憶體,是實作模型通用化的關鍵

國外 LLM 廠商較早實作長上下文,國内廠商通過長上下文找到差異化競争優勢。國外較早 實作長上下文的廠商是 Anthropic,旗下 Claude 模型在 23 年 11 月,将支援的上下文從 100K tokens 提升到 200K,同時期的 GPT-4 維持在 128K。24 年 2 月,Google 更新 Gemini 到 1.5 Pro 版本,将上下文長度擴充到 1M(5 月更新中擴充到 2M),并在内部實作了 10M, 是目前已知最大上下文長度。國内方面,23 年 10 月由月之暗面釋出的 Kimi 智能助手(原 名 Kimi Chat),率先提供 20 萬字的長上下文,并在 24 年迎來了使用者通路量的大幅提升。 24 年 3 月,阿裡通義千問和 Kimi 先後宣布支援 1000 萬字和 200 萬字上下文,引發國内百 度文心一言、360 智腦等廠商紛紛跟進長上下文能力疊代。我們認為,國内 LLM 廠商以長 上下文為契機,尋找到了細分領域差異化的競争路線,或有助于指導後續的模型疊代。

長上下文使得模型更加通用化。據月之暗面官方資訊,長上下文能夠解決 90%的模型微調 定制問題。對于短上下文模型,在執行具體的下遊任務前,其已具備的能力往往仍有欠缺, 需要針對下遊任務進行微調。微調的基本步驟包括資料集的準備、微調訓練等,中間可能 還涉及微調結果不理想,需要重新梳理微調過程。而上下文長度足夠的情況下,可以将數 據作為提示詞的一部分,直接用自然語言輸入給大模型,讓模型從上下文中學習,達到微 調效果,使得模型本身更具有通用性。以 Google Gemini 1.5 Pro 為例,将 250K token 的 Kalamang 語(全球使用人數小于 200 人,幾乎不存在于 LLM 的訓練集中)直接作為上下 文輸入給模型,實作了接近人類的翻譯水準。而 GPT-4 和 Claude 2.1 由于上下文支援長度 不夠,無法通過上下文學習到全部的知識。

長上下文還能很好的适配虛拟角色、開發者、AI Agent、垂類場景等需求。1)虛拟角色 Chatbot:長文本能力幫助虛拟角色記住更多的重要使用者資訊,提高使用體驗。2)開發者: 基于大模型開發劇本殺等遊戲或應用時,需要将數萬字甚至超過十萬字的劇情設定以及遊 戲規則作為 prompt 輸入,對長上下文能力有着剛性需求。3)AI Agent:Agent 智能體運 行需要自主進行多輪規劃和決策,且每步行動都可能需要參考曆史記憶資訊才能完成。因 此,短上下文會導緻長流程中的資訊遺忘,長上下文是 Agent 效果的重要保障。4)垂直場 景客戶需求:對于律師、分析師、咨詢師等專業使用者群體,有較多長文本内容分析需求, 模型長上下文能力是關鍵。

實作長上下文有多種方法,優化 Transformer 架構子產品是核心。拆解 Transformer 解碼器, 可以通過改進架構中的各個子產品來實作上下文長度的拓展。1)高效注意力機制:高效的注 意力機制能夠降低計算成本,甚至實作線性時間複雜度。這樣在訓練時就可以實作更長的 序列長度,相應的推理序列長度也會更長。2)實作長期記憶:設計顯式記憶機制,如給予 外部存儲,解決上下文記憶的局限性。3)改進位置編碼 PE:對現有的位置編碼 PE 進行 改進,實作上下文外推。4)對上下文進行處理:用額外的上下文預/後處理,在已有的 LLM (視為黑盒)上改進,確定每次調用中給 LLM 的輸入始終滿足最大長度要求。5)其他方 法:以更廣泛的視角來增強 LLM 的有效上下文視窗,或優化使用現成 LLM 時的效率,例如 MoE(混合專家)、特殊的優化目标函數、并行政策、權重壓縮等。

RAG 與其他長文本實作方法相比,并沒有顯著的優劣之分,要結合場景進行選擇。RAG 基本原理是,在使用者提問時,retriever(檢索器)會從外部的知識庫中檢索最相關的資訊傳 遞給大模型,作為大模型推理所需知識的補充。RAG 更像是大模型本身的“外挂”幫手。 而優化注意力機制等其他長上下文實作方法,則是大模型的“内生”能力,是模型本身能 夠支援輸入更長的資訊,并通過注意力機制掌握序列全局關系。“内生”似乎比“外挂”更 進階,因為模型會捕捉到使用者提出的所有曆史資訊,更适用于 C 端資訊量有限場景。但是 對于 B 端使用者,其企業 Know-How 積累量巨大,且很多知識也是結構化的 QA(如客服), 而模型上下文長度不可能無限延長(受制于算法、算力、推理時間等各種因素),是以 RAG 這種“外挂”的形式更加适合。例如,主要面向 B 端的大模型廠商 Cohere,将 RAG 作為 模型重要能力以适配 B 端檢索場景,其 Command R+模型本身上下文長度僅 128K。 我們認為,“内生”長文本技術是從根本上解決問題,是發展趨勢,但是受制于算力等因素 (未來或将逐漸解決),短期内将與 RAG 共存,選擇上取決于使用場景。

計算機行業深度研究:全球大模型将往何處去?

特點#4:MoE 是模型從千億到萬億參數的關鍵架構

MoE 架構有利于預訓練和推理效率的提升,友善模型 scale up 到更大的參數。據 Hugging Face 資訊,在有限的計算資源預算下,用更少的訓練步數訓練一個更大的模型,往往比用 更多的步數訓練一個較小的模型效果更佳。MoE 的一個顯著優勢是它們能夠在遠少于稠密 模型所需的計算資源下進行有效的預訓練,當計算資源有限時,MoE 可以顯著擴大模型或 資料集的規模,更快地達到稠密模型相同的品質水準。MoE 的引入使得訓練具有數千億甚 至萬億參數的模型成為可能。MoE 特點在于:1)與稠密模型相比,預訓練速度更快;2) 與具有相同參數數量的模型相比,具有更快的推理速度(因為隻需要調用部分參數);3) 需要大量顯存,因為所有專家系統都需要加載到記憶體中,而 MoE 架構的模型參數可達到上 萬億;4)MoE 進行指令調優具有很大的潛力,友善做 Chatbot 類應用。

MoE 由稀疏 MoE 層和門控網絡/路由組成。MoE 模型仍然基于 Transformer 架構,組成部 分包括:1)稀疏 MoE 層:這些層代替了傳統 Transformer 模型中的稠密前饋網絡層,包 含若幹“專家”(例如 8、16、32 個),每個專家本身是一個獨立的神經網絡。這些專家甚 至可以是 MoE 層本身,形成層級式的 MoE 結構。稀疏性展現在模型推理時,并非所有參 數都會在處理每個輸入時被激活或使用,而是根據輸入的特定特征或需求,隻有部分參數 集合被調用和運作。2)門控網絡/路由:決定将使用者輸入的 tokens 發送到哪個具體的專家。 例如下圖中,“More”對應的 token 被發送到第二個專家處理,而“Parameters”送到第一 個專家。一個 token 也可以被發送到多個專家進行處理。路由器中的參數需要學習,将與 網絡的其他部分一同進行預訓練。

專家數量存在邊際遞減效應,MoE 的選擇也要考慮模型的具體應用場景。據 Hugging Face 資訊,增加更多專家可以加速模型的運算速度和推理效率,但這一提升随着專家數量的增 加而邊際遞減,尤其是當專家數量達到 256 或 512 之後更為明顯。另外,雖然推理時隻需 要激活部分參數,但是推理前仍然需要将全量的模型參數加載到顯存中。據 Switch Transformers 的研究結果,以上特性在小規模 MoE 模型下也同樣适用。在架構的選擇上, MoE 适用于擁有多台機器(分布式)且要求高吞吐量的場景,在固定的預訓練計算資源下, 稀疏模型往往能夠實作更優的效果。在顯存較少且吞吐量要求不高的場景,傳統的稠密模 型則是更合适的選擇。

Google 是 MoE 架構的早期探索者之一,OpenAI 實作了 MoE 的商業化落地。MoE 的理 念起源于 1991 年的論文《Adaptive Mixture of Local Experts》。在 ChatGPT 問世之前, Google 已經有了較深入的 MoE 研究,典型代表是 20 年的 Gshard 和 21 年的開源 1.6 萬億 Switch-Transformer 模型。23 年 3 月 GPT-4 問世,OpenAI 繼續走了閉源路線,沒有公布 模型參數。但是據 SemiAnalysis 資訊,GPT-4 的參數約 1.8 萬億,采用 MoE 架構,專家 數為 16,每次推理調用兩個專家,生成 1 個 token 約激活 2800 億參數(GPT-3 為 1750 億參數),消耗 560 TFLOPs 算力。在 GTC 2024 演講上,黃仁勳展示了 GB200 訓練 GPT 模型示意圖,給出的參數也是 GPT-MoE-1.8T,交叉印證。

Mistral 引發 MoE 關注,Google 掀起 MoE 浪潮,國内廠商跟随釋出 MoE 模型。23 年 12 月,Mistral 開源 Mixtral-8x7B-MoE,以近 47 億的參數在多項測評基準上達到或超過 1750 億參數的 GPT-3.5 水準,引發了全球開發者對 MoE 架構的再次關注。英偉達的研究主管 Jim Fan 指出 MoE 将成為未來模型發展的重要趨勢。24 年 2 月,Google 将其最先進模型 系列 Gemini 更新到 1.5 Pro,并指出架構上從稠密架構切換到 MoE 架構,實作了 1.5 Pro 模型性能的大幅提升,核心能力超過 Gemini 1.0 Ultra。國内外模型廠商随即跟進釋出 MoE 相關模型,包括 xAI 開源的 Grok-1(23 年 10 月已實作 MoE,24 年開源)、MiniMax abab6、 Databricks DBRX、AI21 Jamba、阿裡 Qwen-1.5 MoE、昆侖萬維天工 3.0、階躍星辰 STEP 2、商湯日日新 5.0 等。

大模型展望:Scaling Law + AI Agent + 具身智能

展望 24 年及之後的大模型發展方向,我們認為,1)Scaling Law 雖然理論上有邊界,但 是實際上仍遠未達到;2)雖然有 Mamba、KAN 等新的架構挑戰 Transformer,但是 Transformer 仍是主流,短期内預期不會改變;3)以 Meta Llama 為首的開源模型陣營日 益強大,占據了整個基礎模型的超半數比重,且與閉源模型差距縮短;4)AI Agent 是實 現 AGI 的重要加速器。5)具身智能随着與 LLM 技術的融合,将變得更加可用。

展望#1:Scaling Law 理論上有邊界,但是目前仍未到達

Scaling Law 的趨勢終将會趨于平緩,但是目前公開資訊看離該邊界尚遠。OpenAI 在 2020 年 1 月的 Scaling Law 論文中明确指出,整個研究過程中 OpenAI 在大算力、大參數和大訓 練資料情況下,并沒有發現 Scaling Law 出現邊界遞減的現象。但也提到,這個趨勢終将趨 于平緩(level off),因為自然語言具有非零熵。但是實際上,根據斯坦福大學 2023 年的 AI Index 報告,2012-2023 年,頭部模型訓練消耗的算力仍然在持續增大。

可預期的時間内,Scaling Law 的上限尚未看到,self-play 是趨勢。我們認為,雖然 OpenAI 從理論上預測了 Scaling Law 的趨勢會區域平緩,但是目前全球頭部模型廠商依然遵循更大 的參數等于更高的智能。Gemini 和 Claude 3 釋出的模型産品矩陣即驗證了這一觀點,例如 更小的 Claude 3 Haiku 輸出速度快于最大的 Claude 3 Opus,價格更低,智能情況和測評 得分也更低。清華大學教授、智譜 AI 的技術牽頭人唐傑教授在 24 年 2 月北京人工智能産業創新發展大會上發表演講《ChatGLM:從大模型到 AGI 的一點思 考》,也指出了目前很多大模型還在 1000 億參數左右,“我們還遠未到 Scaling law 的盡頭, 資料量、計算量、參數量還遠遠不夠。未來的 Scaling law 還有很長遠的路要走。”此外, 唐傑教授還認為,“今年的階段性成果,是實作 GPT 到 GPT Zero 的進階,即大模型可以 自己教自己”,類似于 AlphaGo 到 Alphazero 的轉變,實作模型 self-play。

展望#2:模型幻覺短期難消除但可抑制,CoT 是典型方法

大模型的幻覺來源包括資料、訓練過程、推理過程等。LLM 的幻覺(hallucination),即 LLM 輸出内容與現實世界的事實或使用者輸入不一緻,通俗說就是“一本正經胡說”。幻覺的來源 主要分為 3 類:1)與訓練資料相關的幻覺;2)與訓練過程相關的幻覺;3)與推理過程相 關的幻覺。 根據幻覺來源的不同,針對性的有各種解決方法。1)資料相關的幻覺:可以在準備資料時, 減少錯誤資訊和偏見,擴充資料知識邊界,減少訓練資料中的虛假相關性,或者增強 LLM 知識回憶能力,如使用思維鍊(CoT)。2)訓練過程相關的幻覺:可以避免有缺陷的模型 架構,例如改進模型架構或優化注意力機制;也可以通過改進人類偏好,減輕模型與人類 對齊時的奉承性。3)推理過程相關的幻覺:主要是在解碼過程中,增強解碼的事實性和忠 誠性,例如保證上下文和邏輯的一緻等。

展望#3:開源模型将在未來技術生态中占據一席之地

2023 年開源模型在全球基礎模型中所占的比重大幅提高。根據斯坦福大學 2023 年的 AI Index 報告,2021-2023 年全球釋出的基礎模型數量持續增多,且開源模型的占比大幅提高, 21-23 年占比分别為 33.3%、44.4%和 65.7%。此外,4 月 OpenAI CEO 和 COO 在接受訪 談時,指出“開源模型無疑将在未來的技術生态中占據一席之地。有些人會傾向于使用開 源模型,有些人則更偏好于托管服務,當然,也會有許多人選擇同時使用這兩種方式。”

Meta 持續開源 Llama 系列模型,證明了開源模型與閉源模型差距持續縮小。4 月 19 日, Llama 3-8B 和 70B 小模型釋出,支援文本輸入和輸出,架構和 Llama 2 基本類似 (Transformer decoder),上下文長度 8K,15T 訓練 token(Llama 2 是 2T)。評測結果看, Llama-70B 與 Gemini 1.5 Pro 和 Claude 3 Sonnet 相比(這兩個閉源模型參數都預期遠大 于 70B),在多語言了解、代碼、國小數學等方面領先。Llama 3 繼續堅持開源,可商用, 但在月活超 7 億時需向 Meta 報備。根據 Mata 官方資訊,Llama 3 将開源 4000 億參數版 本,支援多模态,能力或是 GPT-4 級别。目前訓練的階段性 Llama 3-400B 已經在 MMLU 測評集(多任務語言了解能力)上得分 85 左右,GPT-4 Turbo 得分是 86.4,差距很小,且 Llama 3 400B 仍将在未來幾個月的訓練中持續提升能力。基于 Llama 1 和 2 帶來的繁榮開 源模型生态,我們認為,正式版 Llama 3 釋出後,或将進一步縮小開源模型與閉源模型的 差距,甚至在某些方面繼續趕超。

計算機行業深度研究:全球大模型将往何處去?

大模型的開源閉源之争尚未有定論。開源和閉源在各個領域中誰占主導,并沒有定數。複 盤來看,閉源在作業系統、浏覽器、雲基礎設施、資料庫等領域占據了主導地位,開源在 内容管理系統、網絡伺服器等領域優勢地位明顯。反觀大模型領域,開源閉源誰将最終勝 出尚未有定論。當下,閉源模型的優勢在于:1)資源集中:大模型訓練屬于計算資源密集 型行業,在目前各大雲廠商算力儲備爬坡階段,隻有閉源才能實作萬卡級别的大規模分布 式叢集;2)人才集中:OpenAI、Google、Anthropic、Mata 等大模型頭部廠商,集中了目 前全球為數不多的大模型訓練人才,快速形成了頭部效應。那我們的問題是,這種優勢持 續性有多長?資源方面,未來随着算力基礎設施的逐漸完善、機關算力成本的下降、推理 占比逐漸超過訓練,大廠的資源密集優勢是否還會顯著?人才方面,全球已經看準了 LLM 的方向,相關人才也在加速培養,OpenAI 的相關人才也在快速流失和疊代,人才壁壘是否 也在降低?

展望#4:資料将成為模型規模繼續擴大的瓶頸,合成資料或是關鍵

Epoch 預測,未來訓練資料的缺乏将可能減緩機器學習模型的規模擴充。據 Epoch 預測, 2030 年到 2050 年,将耗盡低品質語言資料的庫存;到 2026 年,将耗盡高品質語言資料的 庫存;2030 年到 2060 年,将耗盡視覺資料的庫存。由于大參數模型對資料量需求的增長, 到 2040 年,由于缺乏訓練資料,機器學習模型的擴充大約有 20%的可能性将顯着減慢。 值得注意的是,以上結論的前提假設是,機器學習資料使用和生産的目前趨勢将持續下去, 并且資料效率不會有重大創新(這個前提未來可能被新合成技術打破)。

合成資料是解決資料缺乏的重要途徑,但目前相關技術仍需要持續改進。理論上,資料缺 乏可以通過合成資料來解決,即 AI 模型自己生成訓練資料,例如可以使用一個 LLM 生成的 文本來訓練另一個 LLM。在 Anthropic 的 Claude 3 技術報告中,已經明确提出在訓練資料 中使用了内部生成的資料。但是目前為止,使用合成資料來訓練生成性人工智能系統的可 行性和有效性仍有待研究,有結果表明合成資料上的訓練模型存在局限性。例如 Alemohammad 發現在生成式圖像模型中,如果在僅有合成資料或者真實人類資料不足的 情況下,将出現輸出圖像品質的顯著下降,即模型自噬障礙(MAD)。我們認為,合成資料 是解決高品質訓練資料短缺的重要方向,随着技術演進,目前面臨的合成資料效果邊際遞 減問題或逐漸解決。

展望#5:新的模型架構出現,但是 Transformer 仍是主流

Transformer 架構主流地位未被撼動。截止 23 年 5 月,LLM 絕大部分仍然以 Transformer 為基礎架構,包括目前最先進的 GPT-4 系列、Google Gemini 系列、Meta Llama 系列,均 是以 Transformer 的解碼器架構為主。雖然有研究者提出了 Mamba 等基于狀态空間模型 (SSM)的新模型架構,實作了:1)推理時的吞吐量為 Transformer 的 5 倍;2)序列長 度可以線性擴充到百萬級别;3)支援多模态;4)測試集結果優于同等參數規模的 Transformer 模型。但從工程實作來看,暫時未得到大範圍的使用。Google 也探索了循環 神經網絡的遞歸機制與局部注意力機制的結合;KAN 的提出也從底層替換了 Transformer 的基礎單元 MLP(多層感覺機)。但我們認為,以上方法都缺乏大量的工程實踐和成熟的工 程工具,短期内替換掉 Transformer 可能性不大。

計算機行業深度研究:全球大模型将往何處去?

全球首個基于 Mamba 架構的生産級模型釋出,Mamba 開始得到落地驗證。24 年 3 月, AI21 釋出世界首個 Mamba 的生産級模型 Jamba,融合了 Mamba+Transformer+MoE 等不 同類型的大模型技術。Jamba 基本資訊如下:1)共 52B 參數,其中 12B 在推理時處于激 活狀态;2)共 16 位專家,推理過程中僅 4 個專家處于活躍狀态;3)模型基于 Mamba, 采用 SSM-Transformer 混合的架構;4)支援 256K 上下文長度;5)單個 A100 80GB 最 多可支援 140K 上下文;6)與 Mixtral 8x7B 相比,長上下文的吞吐量提高了 3 倍。從測評 結果看,Jamba 在推理能力上優于 Llama 2 70B、Gemma 7B 和 Mixtral 8x7B。Mamba 架 構開始得到驗證。

Google RecurrentGemma 架構也與 Transformer 不同,是另一種新的路線探索。 RecurrentGemma 基于 Google 開源的小模型 Gemma,在此基礎上,引入了循環神經網絡 (RNN)和局部注意力機制來提高記憶效率。由于傳統的 Transformer 架構中,需要計算 兩兩 token 之間的注意力機制,是以時間和空間複雜度均随着 token 的增加而平方級增長。 由于 RNN 引入的線性遞歸機制避免了平方級複雜度,RecurrentGemma 帶來了以下幾個優 勢:1)記憶體使用減少:在記憶體有限的裝置(例如單個 XPU)上生成更長的樣本。2)更高 的吞吐量:由于記憶體使用量減少,RecurrentGemma 可以以顯着更高的 batch 大小執行推 理,進而每秒生成更多的 token(尤其是在生成長序列時)。更重要的是,RecurrentGemma 展示了一種實作高性能的非 Transformer 模型,是架構革新的重要探索。

展望#6:AI Agent 智能體是 AGI 的加速器

計算機科學中 Agent 指計算機能夠了解使用者的意願并能自主地代表使用者執行任務。Agent (中文翻譯智能體、代理等)概念起源于哲學,描述了一種擁有欲望、信念、意圖和采取 行動能力的實體。将這個概念遷移到計算機科學中,即意指計算機能夠了解使用者的意願并 能自主地代表使用者執行任務。随着 AI 的發展,AI Agent 用來描述表現出智能行為并具有自 主性、反應性、主動性和社交能力的人工實體,能夠使用傳感器感覺周圍環境、做出決策, 然後使用執行器采取行動。 AI Agent 是實作人工通用智能(AGI)的關鍵一步,包含了廣泛的智能活動潛力。2020 年, Yonatan Bisk 在《Experience Grounds Language》中提出 World Scope (WS),來描述自 然語言處理到 AGI 的研究進展,包括 5 個層級:WS1. Corpus (our past);WS2. Internet (most of current NLP);WS3. Perception (multimodal NLP);WS4. Embodiment;WS5. Social。據複旦大學 NLP 團隊,純 LLM 建立在第二個層次上,即具有網際網路規模的文本輸 入和輸出。将 LLM 與 Agent 技術架構結合,并配備擴充的感覺空間和行動空間,就有可能 達到 WS 的第三和第四層。多個 Agent 可以通過合作或競争來處理更複雜的任務,甚至觀 察到湧現的社會現象,潛在地達到第五 WS 級别。

AI Agent 主要由 LLM 大腦、規劃單元、記憶單元、工具和行動單元組成。不同研究中的 AI Agent 架構組成略有差别。比較官方的定義是 OpenAI 安全系統負責人 Lilian 提出的,她 将 Agent 定義為 LLM、記憶(Memory)、任務規劃(Planning Skills)以及工具使用(Tool Use)的集合,其中 LLM 是核心大腦,Memory、Planning Skills 以及 Tool Use 等則是 Agents 系統實作的三個關鍵元件。此外,複旦大學 NLP 團隊也提出了由大腦、感覺和動作三部分 組成的 AI Agent 架構。

吳恩達教授指出,LLM 加上反思、工具使用、規劃、多智能體等能力後,表現大幅提升。 斯坦福大學教授、Amazon 董事會成員吳恩達在紅杉美國 AI Ascent 2024 提出,如果使用者 圍繞 GPT-3.5 使用一個 Agent 工作流程,其實際表現甚至好于 GPT-4。其中,反思指的是 讓模型重新思考其生成的答案是否正确,往往會帶來輸出結果的改進;工具使用包括調用 外部的聯網搜尋、月曆、雲存儲、代碼解釋器等工具,補充模型的能力欠缺;多智能體協 作指的是多種智能體互相搭配來完成一個複雜任務,每種智能體會負責自己所擅長的一個 領域,類似人類社會之間的協作,實作超越單個智能體能達到的效果。

Agent 相關研究處于爆發期。伴随 LLM 的快速疊代發展,基于 LLM 的 AI Agent 湧現,典 型的如 Auto-GPT、微軟的 HuggingGPT、斯坦福小鎮 Generative Agent、Nvidia Voyager 等。24 年 3 月,AI 初創公司 Cognition 釋出第一個 AI 軟體工程師自主智能體 Devin,能夠 使用自己的 shell、代碼編輯器和 Web 浏覽器來解決工程任務,并在 SWE-Bench 基準測試 上正确解決了 13.86%的問題,遠超之前方法的正确率。我們認為,2024 年基于 AI Agent 的應用和産品仍将會繼續湧現,其效果也将持續受益于大模型能力的提升,AI Agent 将成 為實作 AGI 的重要助推器。

展望#7:具身智能與 LLM 結合落地加速

AI 龍頭公司在具身智能領域有模型、架構層面的豐富研究成果。23 年 5 月,Nvidia CEO 黃仁勳指出,AI 的下一個浪潮将是具身智能。各個 AI 頭部廠商均有相關的研究成果。23 年年初,微軟的 ChatGPT for Robotics 初次探讨了 LLM 代替人工程式設計,來對機器人實作控 制。Google 延續了 2022 年的具身智能成果,将 RT 系列模型更新到視覺動作語言模型 RT-2, 将 Gato 更新到能自我疊代的 RoboCat,并開源了迄今最大的真實機器人具身智能資料集 Open X-Embodiment。Nvidia 也有 VIMA 和 OPTIMUS 等具身智能研究,并在 24 年 2 月 成立了專門研究具身智能的小組 GEAR。斯坦福李飛飛教授的 VoxPoser 結合視覺模型和語 言模型優勢,模組化了空間 Value Map 來對機器人軌迹進行規劃。Meta 也釋出 RoboAgent, 并在訓練資料集收集上利用了自家的 CV 大模型 SAM。

2024 年,具身智能仍是 LLM 重要的終端落地場景,技術仍在持續疊代。1)24 年 1 月, 斯坦福大學釋出 Mobile ALOHA 機器人,利用模仿學習,在人類做出 50 個示例後,機器人 即能自行執行下遊任務。2)同月,Google 一次性釋出了三項具身智能成果。Auto-RT 解 決機器人資料來源問題,通過 LLM 和 VLM(視覺語言模型)擴充資料收集;SARA-RT 顯 着加快了 Robot Transformers 的推理速度;RT-Trajectory 将視訊轉換為機器人軌迹,為機 器人泛化引入了以運動為中心的目标。3)AI 機器人公司 Figure 推出了 Figure 01,采用端 到端 AI 神經網絡,僅通過觀察人類煮咖啡即可在 10 小時内完成訓練。4)從目前 Tesla Optimus 釋出視訊情況看,Optimus 的神經網絡已經能夠指導機器人進行物品分揀等動作, 且控制能力進一步提高。

OpenAI 與 Figure AI 率先合作,實作了大模型對具身智能的賦能。24 年 3 月,OpenAI 官方宣布與 Figure AI 機器人公司合作,将多模态模型擴充到機器人感覺、推理和互動。宣 布合作 13 天後,Figure 01 已經與 OpenAI 的視覺語言模型結合,并釋出了示範視訊。 ChatGPT 從頂層負責使用者互動、環境感覺(依靠 vision 視覺能力)、複雜問題拆解,而 Figure 01 自身的神經網絡和控制系統負責底層的自主任務執行,實作了強互動的自主任務執行。 随後,國内大模型廠商百度與機器人整機廠商優必選也宣布合作,“複刻”了 OpenAI+Figure 的合作路線,由文心大模型負責互動推理、優必選 Walker X 負責底層任務實作。我們認為, 多模态大模型和機器人結合的路線已經走通,随着 24 年模型能力持續疊代(GPT-4o 的出 現),以及人形機器人自主和控制能力的加強,LLM+具身智能落地加速,并将更加可用、 好用。

GPT-5 的幾個預期

OpenAI 從 GPT-3 開始實行閉源商業化路線,相關的模型技術幾乎不再公布細節。我們基 于對全球大模型發展趨勢的研究和把握,提出幾個 GPT-5 可能的預期和展望,并給出相應 的推測邏輯。

預期#1:MoE 架構将延續,專家參數和數量或變大

MoE 是現階段實作模型性能、推理成本、模型參數三者優化的最佳架構方案。1)MoE 将 各種專家通過路由(router)機制有機整合,在各種下遊任務上,能夠充分利用每個專家的 專業能力,提高模型表現;2)MoE 天然的稀疏架構,使得 MoE 模型與同參數稠密模型在 推理成本上有較大節省;3)同理,在推理成本固定的情況下,MoE 模型相比稠密模型,能 夠把模型參數堆到更大,同樣能夠提升模型性能。 我們認為,OpenAI 在 GPT-5 模型疊代時仍将采用 MoE 架構,或有部分改進。相比 GPT-4, GPT-5 的 MoE 架構或将有以下改進:1)每個專家的參數更大,例如每個專家大小與 GPT-4 相同,近 2T 參數。即使 OpenAI 無法将單個 2T 參數專家做成稠密架構,也可以使用 MoE 嵌套 MoE 的方式實作。2)專家數量變多,例如幻方旗下 DeepSeek V2 模型即使用改進的 DeepSeekMoE 架構,采取了更細粒度的專家結構,将專家數擴充到 160+,以适應更加豐 富和專業的下遊任務。3)MoE 架構本身可能有改進,例如 Google DeepMind 提出了 Mixture of Depth(MoD)架構,向 Transformer 的不同層(layer)引入類似 MoE 的路由機制,對 token 進行選擇性處理,以減少推理成本。MoD 可以和 MoE 混合使用,相當于對 MoE 進 行了改進。OpenAI 或也會有類似的改進技術。

計算機行業深度研究:全球大模型将往何處去?

預期#2:GPT-5 及之後模型的訓練資料集品質更高、規模更大

OpenAI 不斷加速與私有高品質資料公司的合作進度,為訓練大模型做資料儲備。2023 年 11 月,OpenAI 即官宣推出資料合作夥伴計劃,将與各類組織合作生成用于訓練 AI 模型的 公共和私有資料集,包括冰島政府、非營利法律組織“Free Law Project”等。2024 年, OpenAI 在 4-5 月先後與英國金融時報、程式員交流網站 Stack Overflow、論壇網站 Reddit 宣布合作,相關資料覆寫了新聞、代碼、論壇交流等場景。我們認為,OpenAI 在早期的數 據儲備中,已經将網絡公開可獲得的資料進行了充分的開發,根據 OpenAI 的 Scaling Law 和 Google Chinchilla 的結論,随着模型參數的增大,想要充分訓練模型,必須增大訓練數 據規模,這也從 OpenAI 的廣泛資料合作關系中得到印證。我們認為,GPT-5 及之後模型 的訓練資料集,将有望吸納更多高品質的私域資料,資料規模也将變得更大。

預期#3:在思維鍊 CoT 的基礎上,再加一層 AI 監督

思 維 鍊 能 夠 在 不 改 變 模 型 的 情 況 下 提 高 其 表 現 性 能 。 2022 年 , Jason Wei 在 《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中首次提出 思維鍊(chain of thought,CoT)概念,使模型能夠将多步驟問題分解為中間步驟。通過 思維鍊提示,足夠規模(~100B 參數)的語言模型可以解決标準提示方法無法解決的複雜 推理問題,提高各種推理任務的表現。以算數推理 MultiArith 和 GSM8K 為例,當使用思維 鍊提示時,增加 LaMDA 和 PaLM 模型參數可以顯著提高性能,且性能大大優于标準提示。 此外,思維鍊對于模型的常識推理任務(如 CommonsenseQA、StrategyQA 和 Date Understanding 等)同樣有明顯的性能提升作用

OpenAI 探索了過程監督對模型的性能提升,有望與 CoT 結合,進一步提高推理能力。23 年 5 月,OpenAI 官方 blog 宣布訓練了一個獎勵模型,通過獎勵推理的每個正确步驟(“過 程監督”),而不是簡單地獎勵正确的最終答案(“結果監督”),來更好的解決模型的數學推 理能力和問題解決能力。與結果監督相比,過程監督有優勢:1)過程監督相當于直接獎勵 了模型遵循對齊的 CoT,流程中的每個步驟都受到精确的監督;2)過程監督更有可能産生 可解釋的推理,因為它鼓勵模型遵循人類思考的過程。最終的 MATH 測試集結果中,過程 監督能夠提升相對于結果監督 5pct 以上的正确率。我們認為,這種基于 CoT 的過程監督方 法,有可能幫助 GPT-5 進一步提高模型推理的正确性,壓制模型幻覺。

預期#4:支援更多外部工具調用的端到端模型

GPT-5 有望在 GPT-4 少量的外部工具基礎上,增加更多的可調用工具,擴充能力邊界。目 前基于 GPT-4 系列的 ChatGPT,能夠調用 Bing 搜尋、進階資料分析(原代碼解釋器)、 DALL-E 文生圖等外部工具,并且在 23 年 11 月推出 All Tools 能力,讓 ChatGPT 在與使用者 對話時自主選擇以上三種工具。外部工具調用使得模型在性能基本保持不變的情況下,能 力邊界得到擴充,其實質與 Agent 調用工具類似。此外,曾在 23 年 3 月推出的 ChatGPT Plugins 功能,本質也是外部工具,但是由于 GPT-4 能力的有限,導緻能夠在單個對話中使 用的 Plugins 隻有三個,是以 Plugins 逐漸被 GPTs 智能體取代。我們認為,随着 GPT-5 推理能力的進一步提高,将有能力更好的自主分析使用者需求,以更合理的方式,調用更多 的外部工具(100-200 個),如電腦、雲存儲等,進而進一步擴充 GPT-5 的模型能力邊界。

GPT-4o 已經打下多模态端到端的基礎,GPT-5 将延續。我們認為,GPT-4o 驗證了頭部廠 商大模型原生多模态的發展趨勢,這一趨勢不會輕易改變,因為端到端的原生多模态,很 好的解決了模型延時(如 GPT-4 非端到端語音響應平均時間超 5s,而 4o 端到端語音響應 時間平均僅 320ms)、模型誤差(由于誤差是不可避免的,級聯的模型越多,誤差累計越大, 端到端僅 1 份誤差)等問題,是以 GPT-5 将延續端到端多模态結構,或将有部分改進。如 進一步降低端到端的響應延遲,優化使用者使用體驗;加入更多的模态支援,如深度、慣性 測量機關(IMU)、熱紅外輻射等資訊,以支援更複雜的如具身智能等場景。

預期#5:多種大小不同的參數,不排除推出端側小模型

Google 和 Anthropic 均在同代模型中推出參數大小不同的版本,GPT-5 有望跟進。Google 和 Anthropic 均采取了同代模型、不同大小的産品釋出政策,以平 衡使用者的成本和性能體驗。據海外開發者 Tibor Blaho 資訊,ChatGPT 安卓版安裝包 1.2024.122 版本中發現了三個新的模型名稱:gpt-4l,gpt-4l-auto,gpt-4-auto,其中 l 代表 “lite”(輕量),或是 OpenAI 開始考慮布局大小不同的模型矩陣。由于 Google 官方已經實 現了最小參數的 Gemini Nano 模型在 Pixel 8 Pro 和三星 Galaxy S24 系列實裝,且據 Bloomberg 資訊,OpenAI 與 Apple 正在探索端側模型上的合作,我們預測,GPT-5 也有可 能推出端側的小參數模型版本。

預期#6:從普通作業系統到 LLM 作業系統

LLM 作業系統是 Agent 在系統層面的具象化。LLM OS 是前 OpenAI 科學家 Andrej Karpathy 提出的設想,其中 LLM 将替代 CPU 作為作業系統核心,LLM 的上下文視窗是 RAM,接受使用者指令并輸出控制指令,在 LLM 核心外部有存儲、工具、網絡等各種“外設” 供 LLM 調用。我們認為,從結構上看,LLM OS 和圖表 67 所示的 Agent 架構十分相似, 可以看做 Agent 在作業系統領域的具象化。LLM OS 的核心就是模型能力,随着 GPT-5 推 理性能的不斷提升,我們認為 LLM 和 OS 結合的範式将更有可能實作,屆時人類和 OS 的 互動方式将不再以鍵鼠操作為主,而會轉向基于 LLM 的自然語言或語音操作,進一步解放 人類雙手,實作互動方式的更新。

預期#7:端側 AI Agent 将更加實用和智能

OpenAI 和 Google 已經将模型的重點使用場景定位到端側 AI Agent。24 年 5 月 13-14 日, OpenAI 和 Google 分别召開釋出會和開發者大會,其中最值得關注和最亮眼的部分就是端 側 AI Agent。OpenAI 基于最新的端到端 GPT-4o 模型打造了新的 Voice Mode,實作了更 拟人、更個性化、可打斷、可實時互動的 AI 助手,并能夠使用 4o 的視覺能力,讓助手針 對使用者看到的周圍環境和PC場景進行推理;Google的Project Astra也實作了類似的效果, 并且能夠根據模型“看到”的場景進行 recall。我們認為,頭部模型廠商遵循了模型邊疊代、 應用邊解鎖的發展路徑,目前已經将模型的使用場景聚焦到了端側。結合 OpenAI 與 Apple 的合作進展看,端側 AI 或将在 24 年下半年成為重點。

更加智能的 GPT-5 能夠将 AI Agent 能力推上新的台階。我們認為,OpenAI 在第四代 GPT 的大版本下,已經通過端到端的 4o 實作了 AI Agent 更實時、更智能的多模态互動。但是基 于目前模型的推理性能,AI Agent 在實作多任務、多步驟的自主任務執行時成功率仍不夠 高。以 PC 端基于 GPT-4 的 AI 軟體工程師智能體 Devin 為例,在 SWE-Bench 基準測試(要 求 AI 解決 GitHub 上現實世界開源項目問題)上進行評估時,Devin 在沒有人類協助的情況 下能正确解決 13.86%的問題,遠遠超過了之前最好方法對應的 1.96%正确率,即使給出了 要編輯的确切檔案,Claude 2 也隻能成功解決 4.80%的問題。但是 13.86%的成功率,仍 然距離實用較遠,究其原因還是模型的智能能力“不夠”。我們認為,随着 GPT-5 核心推理 能力進一步提高,或能将“類 Devin”産品正确率提升到 80%以上,AI Agent 将變得更加 實用和智能。

計算機行業深度研究:全球大模型将往何處去?

理想 vs 現實:從 AI+到+AI

據 Ericsson 白皮書《Defining AI native》,AI 與系統可以分為非原生和原生兩類。對于 非 AI 原生(None AI-native)系統,又可根據 AI 元件的部署方式細分為:1)替換已有部 件。即在現有的系統元件中,将其中的一部分用基于 AI 的元件進行替換或增強。2)增加 新的部件。即不改變現有系統中元件的情況下,增加一部分基于 AI 的元件。3)增加 AI 控 制。同樣不改變現有系統的元件,增加基于 AI 的控制元件部分,來對已有元件進行控制, 在傳統功能之上提供自動化、優化和額外功能。對于 AI 原生(AI-native)系統,系統中所 有的元件均基于 AI 能力建構,整個 AI 原生系統擁有内在的、值得信賴的 AI 功能,AI 是設 計、部署、操作和維護等功能的自然組成部分。

AI+指的是 AI 原生形式,是理想的 AI 應用和硬體建構方法,但是目前的大模型能力還無法 很好的支援這一實作。 在 AI+應用方面,典型的如 AI 原生搜尋類應用 Perplexity。據 SimilarWeb 資料,2023 年 1 月-2024 年 5 月,Perplexity 每月的網站通路量不斷提升,截至 24 年 5 月,月網站通路 量已經達到了近 9000 萬,較大幅度領先于同樣做 AI 原生搜尋的 You.com。但是從搜尋引 擎的全球市占率看,據 Statcounter 資料,Google 的搜尋引擎市占率從 23 年 1 月的 92.9% 僅微降到 24年 5月的 90.8%,Bing的市占率從 23年 1月的 3.03%微升到 24年 5月的 3.72%。 我們認為,目前為止,AI 原生的搜尋應用并未對傳統搜尋産生本質影響。

在 AI+硬體方面,代表産品為 Ai Pin 和 Rabbit R1。23 年 11 月,智能穿戴裝置公司 Humane 釋出基于 AI 的智能硬體 Ai Pin,由 GPT 等 AI 模型驅動,為 AI 原生的硬體,支援雷射屏、 手勢、語音等操作。24 年 4 月,Rabbit 推出 AI 驅動的硬體 R1,大小約為 iPhone 的一半。 R1 使用者無需應用程式和登入,隻需簡單提問,就能實作查詢、播音樂、打車、購物、發信 息等操作。R1 内部運作 Rabbit OS 作業系統,基于“大型動作模型”(Large Action Model, LAM)打造,而非類似于 ChatGPT 的大型語言模型。LAM 可以在計算機上了解人類的意 圖,借助專門的 Teach Mode,使用者可以在計算機上示範操作,R1 将進行模仿學習。但是 以上兩款産品釋出後,據 BBC 和 Inc 等資訊,産品的使用者體驗一般,問題主要包括 AI 模型 響應過慢、對網絡通暢性要求過高、無法端側推理、電池發熱嚴重等。

+AI 指的是非原生 AI 形式,在成熟的軟硬體系統上疊加一定的 AI 功能,更符合目前模型 的能力,或成為近期的疊代重點。 在+AI 應用方面,微軟的 Copilot 系列是典型的成熟 SaaS+AI 應用。從功能覆寫來看,微 軟基于成熟的作業系統、企業辦公、客戶關系管理、資源管理、員工管理、低代碼開發等 業務環節,上線了 Copilot 相關功能,并初步實作各應用間的 Copilot 關聯。據微軟 24Q1 财報資料,Github Copilot 使用者數已超 50000 家,付費使用者人數 180 萬人,Windows 系統 層面的 Copilot 裝機量約 2.3 億台。

另一個+AI 的典型應用是 Meta 的推薦算法+AI 大模型賦能。據 4 月 19 日紮克伯格訪談, Meta 從 22 年即開始購入 H100 GPU,當時 ChatGPT 尚未問世,Meta 主要利用這些算力 開發短視訊應用 Reels 以對抗 Tiktok,其中最核心的就是推薦算法的改進。2024 年 4 月, Meta 釋出生成式推薦系統論文《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations 》, 開 創 性 提 出 了 基 于 Transformer 的生成式推薦(Generative Recommenders ,GRs)架構(更具體細節可以參 考華泰計算機 5 月 23 日報告《雲廠 AI 算力自用需求或超預期》)。據 Meta 24Q1 電話會, 截至 24Q1,Facebook 上約有 30%的文章是通過 AI 推薦系統釋出的,在 Instagram 上看 到的内容中有超過 50%是 AI 推薦的,已經實作了推薦引擎+AI 對推薦和廣告業務的賦能。

在+AI 硬體方面,在成熟的 PC 和手機上已經探索出了硬體+AI 的演進道路。雖然原生的 AI 硬體如 Ai Pin 和 Rabbit R1 并未取得巨大成功,但是微軟、聯想的 AI PC 布局,以及 Apple 的 AI 手機布局已經清晰。從目前各廠商終端側模型布局看,有以下特點:

1)端側模型參數量普遍在 100 億參數以下。端側能夠支援的模型參數大小,重要的取決因 素是 NPU(神經處理單元)的算力多少,以及記憶體 DRAM 的大小。端側最先進的晶片 NPU 算力基本在 40TOPS 左右,支援的參數一般在百億級别。

2)端雲協同模式将長期存在。由于端側模型參數量有限,導緻無法處理較複雜的任務,因 此還需要依賴雲端或伺服器端的模型配合。高通于 23 年 5 月釋出白皮書《混合 AI 是 Al 的 未來》,指出 AI 處理能力持續向邊緣轉移,越來越多的 AI 推理工作負載在手機、筆記本電 腦、XR 頭顯、汽車和其他邊緣終端上運作。終端側 AI 能力是賦能端雲混合 AI 并讓生成式 AI 實作全球規模化擴充的關鍵。此外,以 Apple Intelligence 的模型布局為例,其中的編排 層(Orchestration)會根據任務難易決定推理使用終端模型還是雲端模型。我們認為,這 種端雲協同的方式在端側+AI 的形式下有望長期存在。

3)Arm 架構晶片布局略快于 x86 架構。微軟的第一批 Copilot+ PC 搭載的高通骁龍 X Elite 晶片和 Apple 自研的 M 系列晶片,均是基于 Arm 架構打造。AMD 和 Intel 的 x86 架構 AI PC 晶片在時間上略有落後。我們認為,Arm 架構有望在終端+AI 領域提高市場佔有率,但是最終 Arm 和 x86 的格局尚需觀察。

(本文僅供參考,不代表我們的任何投資建議。如需使用相關資訊,請參閱報告原文。)

精選報告來源:【未來智庫】。未來智庫 - 官方網站

繼續閱讀