文心一言 vs GPT-4實測！百度背水一戰交卷

編輯部發自凹非寺

量子位 | 公衆号 QbitAI

GPT-4釋出一天之後，壓力全部給到百度這邊。

就在剛剛，百度交卷。

文心一言，百度全新一代知識增強大語言模型，正式在百度總部“揮手點江山”會議室裡釋出。

在一片靜寂的氛圍裡，李彥宏小步登場，語氣裡帶着點緊張：

大家的期望值，是我們對标ChatGPT，對标GPT-4，這個門檻有點高（笑）。

十月懷胎，我們就帶大家來看看這個AI大模型文心一言長什麼樣。

此前，有人狂轉meme圖把百度比作GPT-4旁邊的垃圾箱。

也有人鼓吹百度是全村的希望。

而在釋出會進行的同時，百度港股市值大幅下跌，相關話題還沖上了微網誌熱搜。

但直播彈幕中也有網友點贊：

那麼這個中國版ChatGPT到底實力如何？

咱們就用百度釋出會示範的預錄制Demo，對比一下嶄新出爐的GPT-4，先憑實力說話。

文心一言 vs GPT-4

和GPT-4一樣，文心一言是一個多模态大模型。

李彥宏開場就展示了文心一言具備的5種能力，包括文學創作、商業文案創作、數理邏輯推算、中文了解、多模态生成。

文心一言甚至還現場秀了一口接地氣的四川話，現場網友發出一片笑聲。

其他能力如何？我們具體展開來看。

文學創作

在文學創作上，李彥宏一開場就搬出了《三體》作者劉慈欣坐鎮。

先讓文心一言介紹一下大劉，“畢竟我也是劉慈欣老鄉嘛”：

看起來沒什麼問題。同樣的問題問問GPT-4呢？

嗯？？？直接把劉慈欣的老家挪到了湖北省洪湖市。湖北人狂喜（doge）

随後，李彥宏又展示了從哲學的角度對這段文章進行續寫的demo：

看起來中規中矩，比較理性。老樣子，我們也來與GPT-4進行一波對比：

這波你是想看GPT-4續寫的《三體》，還是文心一言的？

再來看看《三體》電視劇中扮演史強和汪淼的老搭檔，于和偉和張魯一，有什麼共同點？

也沒什麼問題。

就是看起來展示的速度有點快，比李彥宏的語速還要快上那麼一點點（手動狗頭）。

商業文案創作

接下來，李彥宏又展示了一下文心一言在商業文案創作上的能力。

比如給新公司起個名字。

并且這個名字它還不是瞎起的：

再來看看GPT-4起名的效果？

看起來，GPT-4對中文的掌控能力相比之下還是少了一點精髓。

至于寫個公司成立的新聞稿？對文心一言來說似乎也不成問題：

數理邏輯推算

數學能力，是考驗生成式大模型的一大難題。ChatGPT剛上線時，也翻了不少車。

不過在現場，文心一言處理的數學問題不算複雜，是國小數學競賽常見的雞兔同籠問題。

彩蛋是，李彥宏現場展示的第一題，引得文心一言說出了《狂飙》裡高啟盛的經典台詞：這題出得不對。

修改一下題目，OK，再扔給文心一言試試：

看起來，答案還算是有理有據，一步步邏輯推理出來的那種。

李彥宏表示，這些題“不敢說百分之一百能做對，但至少展現了文心一言的思考曆程”。

中文了解

接下來，李彥宏着重展示了一下文心一言對中文的了解能力，并特意強調：

文心一言對中國文化的了解，理應超出任何一個預訓練大模型。

一上來就是一個成語，“洛陽紙貴。到底有多貴？”

這是文心一言的效果展示：

還解釋了一下這個成語背後的經濟學原理：

那麼，将這個問題抛給GPT-4呢？首先問問它，知不知道洛陽紙貴是什麼意思：

接下來，再問問他對應的經濟學理論是什麼：

這波看起來，GPT-4的中文了解似乎也不輸文心一言啊。

那麼，再來看看二者寫藏頭詩的能力？

首先是文心一言的效果展示：

接下來，我們再看看GPT-4怎麼說：

诶，看起來反而是GPT-4沒有真正了解“藏頭詩”的含義。

這波文化了解上，屬實是文心一言“小勝一籌”了。

不過在英文上，李彥宏也承認，雖然文心一言也能處理，但能力是顯著不如中文的。

這也和百度目前能用到的訓練資料有關。

多模态生成

最後，李彥宏還簡單展示了一下文心一言多模态生成的能力。

首先來看看，為即将到來的2023世界智能交通大會創作海報——

而除了前文展示過的文字轉四川話能力，文心一言還能文字轉視訊。

李彥宏一句指令“将以上内容生成視訊”，很快啊，不到幾秒鐘，文心一言就把字幕和視訊做好了：

有些遺憾的是，在ChatGPT被頻頻稱贊的程式設計方面，文心一言并沒有現場展示相關能力。

但王海峰透露，文心一言的訓練資料中同樣包括代碼。

文心一言如何“跑通”？

正如ChatGPT脫胎于OpenAI的GPT系列，百度這次推出的文心一言（ERNIE Bot），背後也正是基于文心大模型技術打造。

據王海峰介紹，文心一言主要脫胎于兩大模型：

百度ERNIE系列知識增強千億大模型，以及百度大規模開放域對話模型PLATO。

在此基礎上，主要采用了六項核心技術。

其中三個是廣為人知的大模型技術，包括有監督精調、人類回報強化學習（RLHF）和提示建構。

p.s. 人類回報強化學習也是ChatGPT的關鍵技術。

另外三個，則是“百度比較有特色”的技術，包括知識增強、檢索增強和對話增強技術。

首先來看與ChatGPT類似的技術：有監督精調、RLHF和提示建構。

有監督精調，尤其指中文方面的資料精調。百度基于對中國語言文化和中國應用場景的了解，篩選了特定的資料來訓練模型。

至于人類回報的強化學習（RLHF）和提示建構，操作上也與ChatGPT大差不差。

随後是百度提出的、用于進一步改善模型效果的技術。

知識增強，包括知識内化和知識外用兩個部分。其中，知識内化即将知識“滲透”進模型參數中；知識外用指的是模型可以直接使用外部的知識。

檢索增強，則與百度搜尋引擎積累的檢索技術有關。

百度将把檢索技術和生成技術結合起來，先對内容進行檢索後，将比較有用的部分用于生成，再整合輸出結果：

最後是對話增強部分，包括之前百度積累的記憶機制、上下文了解和對話規劃等技術：

概括來看，文心一言表現出的能力，被李彥宏稱為“智能湧現”：

當參數達到千億量級，訓練語料達到足夠多的情況下，這種現象就會發生。

目前，百度擁有的AI技術可以分為四個部分，晶片（昆侖芯）、架構（飛槳）、模型（文心）和應用。

之是以軟硬體都要布局，百度稱，是為了降低成本：

生成式AI需求的算力非常高，費用相當昂貴。

是以，如果在四層架構之間互相進行協同優化，就能讓它的效率比别人更高，進而顯著降低成本。

李彥宏認為，這也正是百度的優勢所在：

四層都有領先産品的公司，絕無僅有。

這次文心大模型背後的硬體算力，也是通過百度智能雲提供服務。

目前，文心一言已經接入百度搜尋，目的在于提升搜尋資源效率。

同時，包括小度和自動駕駛Apollo等産品，以及愛奇藝等公司也已經接入百度的文心一言模型。

網友：看來還不用提前退休

截至發稿，百度港股股價在一波明顯下跌之後，有所回彈。

釋出會結束，網友反應最多的是“提前錄制有點敗好感”：

對于這一點，李彥宏的解釋是，給出的問題都比較長，為了節約現場時間，是以才用了提前錄制的形式。

還有不少網友對文心一言展示出的能力不太滿意。有人調侃，看完之後感覺“提前退休的日子看起來還可以緩一緩”：

離GPT-4還差了20個老胡。

還有網友感覺，文心一言的釋出會像極了畢業答辯的自己（doge）：

不過也有網友表示，希望能給國産産品一點時間一點耐心。

釋出會末尾，王海峰宣布，文心一言将從今天開始對外進行測試，包括個人使用者和企業使用者。

是騾子是馬，相信接下來，會得到更多驗證。

One More Thing

對了，有網友表示，已經拿到了文心一言的内測資格：

你好，感謝您體驗文心一言，體驗位址:

https://yiyan.baidu.com/welcome，希望您在體驗當中給予更多意見，文心一言邀請碼：KFCVME50RMB，2023年3月16日24:00前有效。

嗯，萬物瘋狂星期四（手動狗頭）。

文心一言 vs GPT-4實測！百度背水一戰交卷

繼續閱讀

李彥宏發百度内部信：文心一言将整合入百度所有核心業務

oracle使用自治事務記錄系統日志

李彥宏，有一點急

體驗報告來了！記者第一時間親測百度“文心一言”

着急上馬，文心一言注定吃不了汽車這碗飯

吐槽百度“太着急”的人，你不懂

百度起訴蘋果公司，文心一言“官方APP”暗藏騙局

中國版ChatGPT養活了誰？

比亞迪“百度一下”，投了一家晶片獨角獸

百度Apollo：我很“open”，不要你靈魂

微軟谷歌要用AI重塑業務，馬斯克稱AI會摧毀人類……聊聊AI那點事兒

位元組跳動，離不開廣告的日子

車還沒造好，雷軍又紮進了大模型

李彥宏“移情”，集度失寵？

吉利與百度注資1000萬成立汽車公司定名“極與越”

微信公衆号可以修改圖檔了；比亞迪放棄百度自動駕駛技術｜科技早報