天天看點

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

AI未來指北

2024-06-27 15:46騰訊科技AI未來指北官方賬号

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

課代表系列-AI大事兒的最快、最全解讀,本文關注OpenAI近期兩次收購,從這兩次收購背後,試圖拼起OpenAI設計“未來作業系統--LLMOS”的巨大藍圖。

騰訊科技 作者 郝博陽 李安琪

編輯 郭曉靜

GPT-5遲遲沒有消息,OpenAI卻執着于收購。

繼上周買下資料查詢公司Rockset後,OpenAI短期内進行的第二次收購。OpenAI對Rockset的收購的意圖顯而易見,加強其RAG的檢索能力,以便更好地開展ToB業務。

但這次收購的公司Multi,主營業務是桌面遠端控制,針對開發任務提供辦公協作支援。

桌面遠端控制我們都不太陌生,早在10年前這項技術就已經相當成熟了。

協作辦公的概念則出現的相對較晚,但市場也已經相對飽和。像全球增長最快的協作辦公軟體Slack和釘釘,本身也支援遠端控制。而他們也都在内部開展着自己的AI應用實驗。要和他們搶占SaaS這一替代成本高,相對固化的市場,難度很大。

僅從上述單一業務的視角看,很難看出OpenAI的收購意圖都比較模糊。但如果我們把他們作為一個宏大計劃的一部分,也許就能得出不一樣的結果了。

Multi是家什麼公司?

Multi 成立于于2019年,總部位于美國舊金山。核心人物有兩位,一位是前 Dropbox 産品經理Alexander Embiricos ,畢業于斯坦福大學,專業為機器學習。他在Dropbox的工作也是和内容協作相關。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”
落子兩次收購背後:OpenAI要做“大語言模型作業系統”

另一位是前谷歌軟體工程師 Charley Ho ,同樣畢業于斯坦福大學計算機科學專業。在谷歌工作期間,Charley Ho主要負責Bobop項目,這是谷歌在2015年收購的一家公司,專注企業應用平台開發,在并入谷歌後歸屬雲開發團隊。

包括他倆在内,整個Multi 公司隻有五名員工。

Multi 緻力于打造一個基于 Zoom的遠端團隊協作平台,即通過視訊聊天實作團隊協同工作。在2023年的播客中,Embiricos談到了創業緣起。當時他和Ho在溝通中注意到,大多數視訊聊天工具和遠端控制工具都是圍繞示範而非共同解決問題設計。為了解決這個問題,Multi出現了。

但實際上,他們可能是經過一段時間後才得出這個想法的。2019年Multi 剛剛誕生之時(那時還叫作Remotion), Fast Company 把它描述為一款“輕量級”視訊會議工具,可作為 Zoom 或 Microsoft Teams 的替代品。其主要特色在于聯系人在側邊欄,更像即時通訊軟體。但疫情後視訊會議迅速降溫,它也轉向了更深度的遠端協作。

在轉變發生的2021年,正常協作辦公産品例如Slack早已如日中天,也能支援文本編輯之類的簡單工作。同時,另一家定位極其相似的遠端協作辦公軟體Pop的創始人指出,Slack對程式設計的支援并不感冒。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

競品PoP CEO的心路曆程

此時,其他職能領域的協作工具發展日臻成熟,但程式設計領域的協作工具卻無法跟上行業發展的步伐。

“其他職能領域已經獲得了新的多人協作工具,使得合作更加迅速——比如設計師使用的 Figma——但工程師們卻沒有如此強大的工具。當然,我們有像 GitHub 等優秀的拉取請求和倉庫工具,但這類似于設計領域停留在 Dropbox + Sketch 的時代。它雖然有效,但本可以更快。”

程式設計工作是典型的多人協作場景。這是由于現代軟體系統非常複雜,一般會涉及多個子系統群組件。一個大型的應用程式通常包含多個子產品,如前後端開發、使用者界面設計、資料庫管理、算法實作、安全機制等,每個子產品都需要專業的知識技能,多人協作是常态。

是以,Multi把目光對準這個細分領域,為更為複雜的程式設計協作工作場景提供支援。

他們主張将協作流程透明化:“把工作從其容器(應用、标簽頁、螢幕共享等)中解放出來,以便能直接與工作内容及夥伴互動。”

具體來說,Multi 為代碼協作提供的核心功能是應用程式的共享。Multi 支援最多 10 人同時跨螢幕協作,通過獨立光标,可以對已打開的應用程式進行繪制和标注,甚至将各自不同的應用程式視圖融合成一個共享視圖。這一UI的特點是:讓每個處在工作協作流中的角色都能清楚意識到别人在做什麼,自己在做什麼。

此外,在這次AI大潮中,Multi還添加了新的AI功能,比如AI 摘要,協助制定行動項,一鍵生成 Linear 問題等。

OpenAI為什麼要收購一家遠端桌面控制公司?

了解了Multi的主要業務之後,還是很難了解OpenAI的收購意圖。

OpenAI 的AI Agents遊樂園

但仔細閱讀一下Multi的收購公告,我們也許能獲得一些蛛絲馬迹。在其中Multi提到了他們未來的規劃和展望:“近期,我們越來越頻繁地自問,應該如何與計算機協同工作。不是操作或使用計算機,而是真正地與計算機,與人工智能合作。我們相信,這是當今時代最重要的産品問題之一。“

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

從這裡可以看出,Multi進入OpenAI後的首要目标應該是要開發一款适用于人類與多AI Agents共同協作的工具。

這一表述與OpenAI 的思路幾乎完全一緻。在幾周前,OpenAI的CTO Mira Murati在達特茅斯工程學院的采訪中被問到了一個問題:“如果三年後GPT變得異常智能,它會不會自己決定連接配接網際網路并開始行動呢?”Mira回答說 :”Open AI的團隊已經基于這種情況進行了很多思考。他們認為,隻要AI繼續發展下去,具備高智能體能力的系統肯定會出現。而這些AI甚至會結成社群,連接配接到網際網路上 ,互相交流 。并且共同完成某些任務,或者與人類無縫地合作。是以,未來人類與AI的合作就像是今天我們之間彼此合作一樣 。“

是以幾乎可以判斷,這就是OpenAI計劃中的後續AI發展方向。而選擇此時購買Multi,也許正意味着OpenAI的多Agent能力已經達到了可應用的水準。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

(Twitter網友也有這個洞察)

在過去整整一年的時間裡,AI Agent系統,尤其是多Agent協作完成複雜任務的系統一直都是業界想要突破的核心産品。在這一過程中,誕生了Langchain,AutoGen等結合Agents共同工作的系統。也誕生了ComfyUI、Dify、Coze等一系列專著搭建複雜Agent系統的工作流式軟體。

比如Perplexity最近推出的Pages産品就是一個多Agent協作達成的産品,因為單獨的模型在不調用其他Agent的情況下很難完成這樣複雜的排版,選圖設計。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

Perplexity的Pages

Pages明顯是受到了今年3月份一個開源的多Agent項目GPT- Newspaper的影響。在這個項目中,團隊用到了足足七個Agent,對一份報紙生産的内容進行了工作流分解,最終讓AI形成了一份有着多信源稽核、專業而排版豐富的報紙。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

GPT-Newpaper的流程圖

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

GPT- Newspaper生成的報紙

既然已經有了業界的多Agent成熟産品,OpenAI沒理由不為它做進一步布局。

而AI與人協作的概念出現也的非常早。在ChatGPT剛剛誕生半年後,其主要合作夥伴微軟就在Build大會上推出了Copilot這個概念,即讓AI作為一個副駕駛的角色,協助人類完成其日常工作。這種人機協作呈現是在微軟的各種工具中,以大語言模型為核心,解決工具涉及的具體問題,如Github Copilit就是專注于程式設計服務,Microsoft 365 Copilot專注于完成文檔性的工作,但各個Copilit之間其實沒有太多關聯。

同期,微軟也公布了Windows Copilot這個系統級的協作AI,但直到今天這一功能依然比較受限于對話式調用功能,和其他的Copilot之間的系統性聯系也趨于表面。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

Windows Copilot

而OpenAI想做的也許正是這一協作模式的更新版本,即将如Github Copilot,Micorsoft Copilot這一個個單獨針對某個應用優化過的Agent聯合起來,綜合為處理更複雜事物的應用。

功能很強大,但它有個小問題。試想一下,這一AI Agent的組合如果足夠強大的話,它基本上可以完成人所能完成的所有事物。人在這一過程中,除了釋出需求之外,基本是可以被取消掉的。這在使用者體驗上是一種極其不良的感受。

為平滑化這一體驗,OpenAI的這個多Agent遊樂場需要營造出一種“多人協作”感,仿佛AI是與你在并肩工作。你能感受到AI們,随時了解其程序。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

而當Agent功能還沒有這麼強大時,這一步驟更為必要。因為AI可能随時需要你的幫助或對需求的進一步澄清和确認。這種互動也是以并肩工作的戰友間的交流最為舒适。

根據我們上文對Multi的介紹來看,它之前所做的就是建構一個多參與者參與,同步完成複雜任務的協作系統,而且它最擅長的就是通過其豐富的UI,營造出直覺的同時協作感。

雖然Multi的工作已經大概能想象了。但這裡還有一個疑問還沒有完全解決。這麼複雜的,需要調動多個AI Agent的場景,OpenAI打算用在哪裡?

LLMOS的誕生

它應該首先是被應用在一個針對蘋果的應用系統上。

Multi 聯合創始人兼首席執行官 Alexander Embiricos 昨日在其 X 賬号上發文,表示他(以及推測中的整個 Multi 團隊)已加入 OpenAI 的“ChatGPT 桌面團隊”,該團隊負責繼續開發于 2024 年4月釋出的 ChatGPT Mac 桌面應用程式。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

在今年OpenAI的春季釋出會上,OpenAI展示了它支援錄屏功能,通過識别語音和螢幕内容展開對你當下工作的具體分析能力。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

一個多月過去了,這個功能還沒有實裝

Multi成員這次全員加入桌面App的開發就證明了,OpenAI并不是隻把這個桌面App當作一個簡單的調用ChatGPT的産品。

他們希望這個App本身,成為一個新的作業系統,一個LLMOS(大語言模型作業系統)

今年三月,OpenAI的前核心科學家Andrey Karpathy在參加活動時,就曾經說過“OpenAI目前正在努力建構一個類似于作業系統的東西——LLMOS。“

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

Multi收購事件中X上的最熱門評價

LLMOS是Karpathy在去年十二月提出的一整套系統,它以某個強大的大語言模型為核心程序,成為調動所有其他系統内工具的作業系統。他認為它将和Windows,MacOS一樣,成為後續人機互動的新模式。

這是Karpathy在去年十二月認為LLMOS想要實作所需要所有能力:可以浏覽網際網路;使用已有的軟體基礎設施(電腦、Python語言、滑鼠/鍵盤);了解語言和視訊(圖檔);可以進行複雜的思考;可以在一些能夠提供獎勵函數的領域裡自我提升能力;可以從“應用商店”裡下載下傳;擁有自己的檔案系統,或者可以調用外部檔案并進行搜尋;可以針對某些特殊的任務被定制和精調、可以與其他大語言模型溝通。而在當時ChatGPT隻解決了聯網和外部程式設計工具調用。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

Karpathy設想的LLMOS架構

時間來到今年6月,我們看到OpenAI這幾個月确實在按照Karpathy設想的一樣,在逐漸補齊和完善這一LLMOS拼圖。他在提出這一設想時的大模型硬性名額“能力要達到GPT-4的水準,能每秒吐出20個Tokens以上,“存儲”要能夠達到128k Tokens,在GPT-4o上也已經達成。而其軟性能力的完善程度也相當高了。比如聯網功能更完善、Code Interpreter進化到可以做資料分析的水準了。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

OpenAI當下的完成度

這意味着LLMOS的基礎能力已經準備的差不多了。

而對OpenAI自身來講,LLMOS架構中目前還沒有被比較好解決的隻有RAG系統和多Agent調用與互動。這兩個系統,過去在OpenAI的更新中幾乎都沒有被提及。

但OpenAI最近買的兩個公司,Rockset負責資訊檢索;Multi負責多Agent(LLM)互動。正好補齊這兩個OpenAI在建構LLMOS中的短闆。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

這張拼圖,在這兩個公司加入後,總算是拼完了。承載OpenAI版本LLMOS的,應該就是這一最新的桌面系統。

而Multi在其中的角色可能遠比我們想象中的重要。

Karpathy在3月的采訪中還表示,“LLMOS将為不同的公司和垂直領域提供定制化的應用。就像Windows作業系統自帶一些預設的應用程式一樣,LLMOS也會有一些預設的應用。同時也會針對經濟活動中的不同領域去支援一個豐富的第三方應用生态。”

但這些應用的形态可能和傳統App不同。今年3月上線的,當下Github上最火熱的LLMOS項目AIOS,把在LLMOS系統中的應用描述成了一個個由LLM調動的Agent。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

AIOS架構,最上層就是各種Agent應用

這背後的邏輯不難了解。現在所有的第三方應用生态基本上都在追求着AI化,想盡辦法把大語言模型的能力與其産品進行結合。這一過程實際上就是在将一個個三方應用進行Agent化的過程。它們既然進行了這一步,OpenAI也無需再調整每個應用的調用API,由GPT自己去進行專門的對應用的調用。它隻需要把調用Agent的能力整合進 API,提供“代理模式”,供開發者将Agent嵌入任何應用或網站。

GPT自己做好主腦,完成調用排序,讓這些各個應用中更專長的Agent去聯合完成具體任務即可。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

是以新的LLMOS本身就可能會是一個多個Agent協作的主場,這一過程的底層産品設計可能就決定了整個系統的體驗。

這就是Multi的重要性。

為什麼是Multi?

多人代碼協作功能并非Multi 獨有,市面上具備同類功能的産品還有很多。比如強于編輯器且支援多人協作的Zed, 以及主攻協作體驗的Pop、Tulpe等,後兩個産品甚至連界面和功能都與Multi高度相似。能夠被OpenAI選中,Multi肯定有它的過人之處。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

Pop的代碼協作功能示範,基本一模一樣

優良的AI基因

與其他功能類似的産品相比,Multi展現出了更多的對AI的了解和設計能力。

在今年三月,Multi釋出了一次更新,加入了AI功能。

在其更新文檔中,他們闡述了自己的AI理念:與GitHub前沿研究院Wittenburger一樣,認為聊天機器人并非大語言模型最好的歸宿。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

Multi在部落格中直接引用了Wittenburger的思考

他們認為比起“沒有上下文,造成一定認知負擔”的AI人機問答,使用者更需要“潤物細無聲”式的協作智能。這其實和OpenAI一直奉行的簡潔、自然的應用理念正相符合。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

Multi的AI更新

 他們還總結出三條AI産品的理念:

-讓LLMs從事更擅長的事。Multi認為LLMs不适合提煉多人協作中涉及到的決策、理由或計劃這類需要確定準确性的資訊,因為它尚且不具備識别細節的能力,很可能會歪曲事實。但是LLMs擅長将記錄轉換為可略讀的片段,是以主張将LLMs用于提煉重點并建立索引,協作者可以根據摘要輕松鎖定目标,并且回到帶有上下文的具體場景中解決問題。

-将AI内化為參與者。“我們能否将 AI 融入熟悉的多人協作功能中,而不是建立一個新系統?”本着這樣的産品理念,AI被視作隊友而非單獨的筆記整理程式。在生成摘要的過程中,AI與使用者的操作被絲滑整合到同一個界面中,并且可以和使用者一同添加、編輯摘要内容。

-開放式輸入。Multi摒棄聊天界面輸入-輸出的互動方式,開放式地保留使用者和AI的自主性。在視訊會議結束後,Multi隻會自動觸發AI摘要。如果使用者需要了解更為詳細的事宜,可以通過建立行動項的方式補充。同時,Multi配備的筆記copilot還能根據上下文對使用者的筆記進行預測。

除了觀念層面,Multi在AI落地能力上也相當不錯。他們将AI視作獨立的智能體參與協作,而非被動的生産工具——在每場會議中,它會自動在會議結束後幫助你進行相關總結。如果你需要,隻要點選一下就可以。而且它隻會總結你最需要的資訊,比如探讨的重點和下一步的計劃。

如果你想繼續豐富這一總結,那可以拉到下面,Multi也給出了引導性的問答系統。結構非常符合一般使用者習慣和訴求。

落子兩次收購背後:OpenAI要做“大語言模型作業系統”

分割清晰

通過這些原則和實踐,Multi看起來确實有能力作為OpenAI打造多Agent協作系統時所需要的幫手。

投資内幕

除了技術上的優勢,Multi背後的投資方也和OpenAI有着千絲萬縷的聯系。

公開資料顯示,Multi在今年早些時候接受了Greylock 以及 First Round Capital 等風投公司的近 1300 萬美元的投資。

Greylock是一家位于矽谷的頂尖風投,早期投資過Facebook、Linkedin、 Instagram、Dropbox等明星公司。在新一輪的AI投資浪潮中,Greylock 甚至被稱作 “離全球頂尖的兩家人工智能實驗室 OpenAI、DeepMind 最近的VC”。

這要得益于Greylock中的一位合夥人——Reid Hoffman。2015年,Hoffman和馬斯克、奧特曼等人共同出資創立了OpenAI,此時Reid Hoffman已經擔任 Greylock合夥人多年,這讓Greylock在AI浪潮裡占盡先機。

OpenAI近期的收購的Rockset的投資方中,也有Greylock。

兩起收購都和Reid Hoffman有關,這很有可能也是OpenAI選擇Multi背後的一個關鍵因素。

檢視原圖 374K

  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”
  • 落子兩次收購背後:OpenAI要做“大語言模型作業系統”

繼續閱讀