天天看點

螞蟻百靈大模型一号位:GPT-4o釋出不意外,原生多模态方向已明

作者:量子位

白交 發自 凹非寺量子位 | 公衆号 QbitAI

與之前的版本相比,GPT-4o最大改進在于它在整合方面的精細度,它将所有模态內建在一個端到端的模型中(All in One)。

OpenAI這三個關鍵能力值得借鑒:資料組織能力、技術聚焦以及工程優化。如果我們能把這些關鍵點做好,也有可能會開發出具有類似效果的模型。

原生多模态大模型,大機率成為國内大模型主要競争點。

OpenAI再度用GPT-4o震撼世界,這一次将如何影響行業?螞蟻AI創新研發與應用部門NextEvo一号位徐鵬博士如是說道。

螞蟻百靈大模型一号位:GPT-4o釋出不意外,原生多模态方向已明

誰是徐鵬博士?

徐鵬博士,目前是螞蟻集團副總裁,AI創新研發與應用部門NextEvo一号位。他曾在谷歌工作11年,負責和上司了谷歌翻譯的核心技術研發,并參與了谷歌顯示廣告系統的算法研發。NextEvo則承擔了螞蟻AI的所有核心技術研發,包括螞蟻百靈大模型的所有研發工作。

據徐鵬透露,螞蟻在今年年初判斷了原生多模态的技術方向,并持續投入,目前正在研發全模态數字人和全模态智能體相關産品。

作為OpenAI第一個整合所有模态的大模型GPT-4o,它還擁有驚人的響應速度,這到底是如何做到的?給整個行業,以及躬身大模型的企業,又有哪些借鑒意義?

螞蟻百靈大模型一号位:GPT-4o釋出不意外,原生多模态方向已明

量子位第一時間同徐鵬博士聊了聊。在不改變原意的基礎上,量子位聯合各位大模型做了如下整理。

對話螞蟻百靈大模型一号位徐鵬

1、怎麼看OpenAI釋出的GPT-4o?

徐鵬:今天OpenAI展示的這款demo産品并不出人意料。從OpenAI的角度來看,他們一直希望将語音能力和語言了解能力進行深度融合。幾年前,他們推出了的Whisper語音識别模型,這可以看作是他們在這方面的早期研究。

他們将各種模态的資料,包括語音、圖像、視訊和文字,都整合在一個統一的表征架構下,這實際上是他們實作人工通用智能(AGI)的自然途徑,因為在他們看來,人類就是這樣一個多模态了解并互動的智能體。他們的智能體最終發展的方向也是如此。

從效果上來看,這次釋出GPT-4o與之前的版本相比,最大的改進在于它在整合方面的精細度。

它将所有模态內建在一個端到端的模型中,而之前的GPT-4在語音識别和語音回複方面還是由三個不同的子產品完成的,盡管這些子產品已經提供了相當不錯的體驗,盡管可能需要等待一兩秒。

這次整合後,GPT 4o能夠實作大約300毫秒的延遲響應,并且能夠感覺人的情緒以及其他非語音信号,這是一個非常顯著的進步。

這也讓人聯想到,可能明天Google I/O釋出也會有類似的功能,因為谷歌已經強調多模态原生模型作為其重要特點。是以,盡管我們期待的是GPT-5的推出,但他們推出這個産品是完全可以了解的,這在智能互動,特别是在超自然互動模式上,是一個巨大的進步。

2、這裡面最厲害的地方在哪裡?

徐鵬:我認為OpenAI一個非常厲害的措施是,在谷歌推出了原生多模态大模型Gemini之後,他們顯然已經開始有計劃地應對競争。

在整合資源、聚焦突破方面,他們的組織能力确實值得敬佩。要開發這樣的産品,無論是資料準備,還是端到端模型的訓練,都需要處理極其龐大的資料量。雖然他們已經擁有像GPT-4作為基礎,但要将模型訓練完善并實作300毫秒以下的響應延遲,這無疑考驗了他們在資料組織能力、技術聚焦以及工程優化方面的能力,這些成就确實值得稱贊。

在借鑒他們的做法時,如果這些關鍵點能夠做好,我們很可能會開發出具有類似效果的模型。

近半年多來我注意到業界,包括國内一些公司在原生多模态領域已經進行了相當大的投入。雖然這些公司在投入速度上可能不及OpenAI,但在這一領域特别在端到端語音模型上也都取得了一定的進展。包括螞蟻集團今年年初在原生多模态領域也做了戰略判斷和重大投入。

3、多模态與原生多模态之間的差別在哪裡?

徐鵬:在我看來,多模态與原生多模态之間的主要差別在于實際應用時,系統背後是基于多個模型的簡單協作,還是由單一模型端到端完成所有任務。

以之前GPT-4為例,它可以通過語音識别模型将語音轉換為文字,也能通過圖像識别模型提取圖像内容,然後利用GPT-4的大型語言模型作為中控生成優質的回答。回答完畢後,系統決定是向使用者傳回一張圖檔、一段文字,還是通過語音合成技術傳回一段語音輸出。

這些功能在GPT-4中都是可行的,但它并不是一個原生多模态模型,而是由多個模型組合而成的,這些模型在訓練時各自有獨立的訓練目标。

相比之下,原生多模态模型則将圖像、文字、語音甚至視訊等多種編碼內建到一個模型中。在訓練過程中,這些不同模态的資料被統一輸入給模型内部學習。當不同模态的資訊相關且指向同一類事物時,它們的内部表征是非常相似的。在生成階段,模型可以更加靈活地利用統一的表征進行不同模态的生成。

是以,最核心的差別在于模型訓練過程中,是否同時處理所有模态的資料,還是分别針對不同目标進行優化。

4、要從傳統大模型技術思路轉向原生多模态大模型,困難嗎?

徐鵬:技術本身可能并不是大家想象中那樣的難度,真正挑戰在于實際操作過程中,如何有效地聚合多種模态的資料,然後做成一個能整合各種能力的端到端模型。

這其中不僅是工程方面的挑戰,還涉及到資料的準備,以及在訓練過程中采用何種方法能夠使進展更加順利。因為這樣一個模型訓練,過程中會遇到各種各樣的小問題,解決這些問題需要經驗和知識的積累。

5、會成為國内大模型公司競争點嗎?

徐鵬:我覺得大機率是會的。但不管是大廠還是初創公司,當中關鍵是能力的一個聚焦,然後在這個領域裡面持續優化。

6、GPT-4o低延時,跟端到端訓練有怎樣關聯?

徐鵬:這裡面是有直接關聯的。

以現有GPT-4為例在進行語音識别時,需要等待使用者完整地表述完一句話,才能完成整句話識别。識别完成後,将整句話輸入到後續的語言模型中,然後根據這些資訊生成回複。再之後才能調用語音合成模型來轉換成語音。

這個過程中可以進行一定程度的優化。例如,語音識别的輸出到大模型了解這一環節,很難達到100%的融合,因為有些話語需要等到完全表述出來才能被了解。同樣,在語音合成時輸出的内容越多,合成的聲調和語調等就越自然。

而現在将這些功能內建到一個模型中,各部分之間的依賴性就會降低。因為模型内部表征已經融合在一起,是以它可以更快地開始生成語音輸出,而不必等待前面的所有資訊都處理完畢。在這個模型内部,資訊已經被統一表征,是以無需等待所有資訊都準備好,就能作為一個整體進行處理。

7、怎麼看它的商業價值?

徐鵬:我認為,OpenAI的這次釋出會實際上并不是直接針對商業化的活動。在釋出會上,他們提到了GPT-4o将對外界免費開放。

從這一點來看,OpenAI似乎更看重基于這種能力的未來發展潛力。他們期待未來有更多的企業能夠在這一基礎上開發出更自然的、能夠與人互動的、更專業的産品,并通過這些産品實作商業化。

在過去由于技術條件的限制,産品設計上的一些創新想法很難實作突破,能做的東西相對有限。然而,GPT-4o模型的出現,将發展的上限提高了很多,使得不同行業的企業在進行業務設計時,可以更放心地将互動任務交給這種自然的互動模式。

8、能不能了解為OpenAI是想再形成一個新的入口,或者是成為一個超級入口

徐鵬:我認為是會這樣的,然後包括他們跟蘋果的這個合作、自研搜尋引擎也是在朝着這個方向去努力的。

9、今天OpenAI展現出來新的軟體形态,接下來如何平衡技術創新與商業模式之間的關系?與像蘋果、多鄰國之間合作關系如何演變?

徐鵬:我的了解是,技術能力固然重要,但要真正實作有效的實際應用,還需要深入了解不同業務領域和行業的核心需求。隻有了解了行業面臨的問題,技術的應用才能帶來業務模式的變革,這也正是我們對AI發展所期待的——通過AI技術的發展推動新的業務模式改革。

目前看來,OpenAI似乎更專注于技術層面的深入準備。他們之前推出的GPT Store旨在鼓勵開發者利用GPT技術開發自己的應用程式。然而,就目前而言,這些應用在深度和廣度上可能還未達到OpenAI預期能引發行業變革的程度。

但我認為,OpenAI這次的技術展示可能會激發更多的期待和探索。更多的行業參與者可能會願意利用其技術能力,在業務模式上進行更深入的探索。盡管目前商業上能否取得成功還是未知數,但我認為這需要結合對行業的深入了解,真正融入行業内部,才能實作行業内的實質性變革。OpenAI所提供的基礎,為未來的變革提供了良好的起點。

10、如果是産品經理這樣一個創業人物,想基于這個百靈或者是螞蟻生态去做應用創新,那我應該做什麼?不做什麼?

徐鵬:我不是做産品經理的,我隻能通過技術這個角度探讨産品與技術應該如何合作。畢竟,産品最終是要服務于使用者的。我認為産品經理應該做的是深入了解目前AI模型發展,明确其能力邊界所在,并預判能力提升的可能方向。在此基礎上,去思考這些能力如何為使用者創造價值,以及它們将如何影響使用者的使用習慣。

從螞蟻集團的角度來看,我們擁有底層技術,并不斷演進這方面的技術,我們不擔心在技術上落後太多。我認為,我們更應該在産品層面進行投入,思考如何創造出真正有價值的産品,更快地與使用者建立聯系,讓使用者通過這種全新極緻體驗的互動模式迅速獲得服務。

這可能是我們未來産品開發中需要重點關注的方向。

11、人機互動體驗上面,還有哪些技術挑戰?原生多模态這條路徑是最好的嗎?

徐鵬:這次GPT-4o釋出确實令人驚豔,它能一定程度捕捉說話者語音語調和語氣,還能通過視覺能力識别人的面部表情和情緒。但這些能力在實際應用場景中能夠達到什麼程度,還需要進一步探索和驗證。

但像這種能在交流過程中全方位了解這個人,無疑是未來産品和技術發展中需要突破的重要方向,到時會帶來真正的互動變革。

原生多模态這條路徑應該是體驗最好的,尤其在互動流暢度上面。但技術難度不小,比如要準确地了解和響應所有視覺和聽覺資訊;此外,相較于多模态資料,單模态資料收集會相對容易一些。

接下來的産品決策需要考慮的是,這種極緻的體驗對于産品來說是否剛需。另一方面,我們是否可以利用單模态資料進行合成,生成有助于模型訓練的合成資料。

— 完 —

量子位 QbitAI · 頭條号簽

關注我們,第一時間獲知前沿科技動态約

繼續閱讀