天天看點

很出人意料!百度文心一言有了質的飛躍,今年内趕超GPT-4?

作者:我為科技狂tech
很出人意料!百度文心一言有了質的飛躍,今年内趕超GPT-4?

OpenAI于2022年11月30日釋出ChatGPT-3.5,于2023年3月14日釋出GPT-4。2023年3月16日,百度也釋出自己的大語言模型——文心一言。并且,百度是中國首個公布自己大語言模型的科技大廠。隻是,文心一言在釋出後的大約兩個月裡,可能有超過半數的網際網路使用者都會對文心一言給出負面的評價——與ChatGPT-3.5相比有着很大的差距。

但換個角度來看,百度将尚不成熟的文心一言開放給廣大使用者使用,這份勇氣和魄力還是值得認可,這是自信的舉動——承認存在不足,相信會變得越來越好。恐怕讓很多人意想不到的是,大概就是在最近半個月,百度文心一言好似有了質的飛躍——“智商”突然提升不少,開始變得“聰明”起來。

首先,與微軟Bing Chat、谷歌Bard類似,文心一言也能夠通過自行搜尋網際網路上的資訊,并向使用者回答各種各樣的問題。這表明文心一言确實具有了一定的語言了解能力和生成能力,以及一些基本的知識和邏輯推理能力,已經可以在一些場景中為使用者提供實實在在的幫助。此外,要想文心一言給出盡可能好的答案,使用者在提問時要盡可能準确和完整。

比如,在這一輪對話中,向文心一言提了三個問題。

1,今天星期幾?

2,上海未來幾天的天氣怎樣?

3,我目前在四川成都,打算去上海玩幾天,你可以幫忙盡可能簡單地規劃一個旅遊路線嗎?

很出人意料!百度文心一言有了質的飛躍,今年内趕超GPT-4?

文心一言給出的回答算是較為令人滿意的。

又比如,在這一輪對話中,向文心一言提了四個問題。

1,搜尋關于蔚來汽車降價的新聞,并告訴蔚來為什麼要降價?

2,2023年1~5月,蔚來汽車每個月的汽車傳遞量是多少?

3,蔚來汽車創始人李斌是否說過,蔚來汽車永不降價?

4,能否針對蔚來、小鵬、理想在2023年5月的傳遞量做一個簡單的對比?

很出人意料!百度文心一言有了質的飛躍,今年内趕超GPT-4?

同樣地,文心一言給出了較為令人滿意的答案。

其次,文心一言在中英文互譯方面的能力比先前有了提升,具備一定的跨語言轉換能力,能夠了解兩種語言間的文法、詞彙和語義差異,能夠生成比較流暢和準确的目智語言文本。另外,根據相關統計,在全世界,懂得使用英文的人不低于15億,大約有11億人使用中文(這裡主要指國語)。對于很多人來說,有必要掌握中文和英文這兩種語言。随着文心一言在中英互譯方面的能力持續提升,既可以成為語言學習的智能助手,又可以幫助翻譯各種文本(提升效率和品質)。

在這一輪對話中,向文心一言提出四個問題。

1,将後面的中文翻譯為日文:我今天心情不太好,想要睡覺。

2,那就将它翻譯為英文吧。

3,将後面的英文翻譯通順連貫的中文:The launch is part of SpaceX's Transporter-8 mission which is "a dedicated smallsat rideshare mission", according to SpaceX's website. The rocket will carry 72 payloads on this flight, including CubeSats, MicroSats, a re-entry capsule and orbital transfer vehicles carrying spacecraft to be deployed at a later time.

4,beautiful girl與pretty girl有什麼差別?

很出人意料!百度文心一言有了質的飛躍,今年内趕超GPT-4?

文心一言對第1個和第2個問題做出的回應,表明它能夠了解上下文,這很好!對第3個問題,文心一言能夠将英文較好地翻譯為中文。對第4個問題,文心一言給出的回答也還能接受。

第三,隻要不是太難,文心一言就能夠寫出正常運作的程式代碼——具有一定的程式設計語言了解能力,能夠根據使用者的自然語言描述或已有的程式代碼片段生成符合文法、邏輯和功能的程式代碼。可以預見的是,文心一言編寫代碼的能力越強,将可以在很多場景中為開發者提供便利,比如代碼生成、代碼補全、代碼翻譯、代碼注釋等。

在這輪對話中,就隻向文心一言提了兩個非常簡單的Python程式設計問題。

1,用Python語言編寫一個足球的視訊動畫。

2,用簡單的Python語言寫出九九乘法口訣表。

很出人意料!百度文心一言有了質的飛躍,今年内趕超GPT-4?

有興趣的網友可以自己去嘗試和體驗(根據自己的想法設定代碼問題或任務的難易程度),包括Python、Java、C/C++、JavaScript等多種程式設計語言。

第四,文心一言并不能像人類一樣,做對超出一定難度的邏輯思維題,以及諸如數學、實體、化學、生物等理工科題目。這意味着,除了語言了解能力和生成能力之外,文心一言還需要提升包括計算和泛化等能力。在這裡,所謂計算能力,指的是進行數值計算、符号運算、邏輯推理等,得出正确的結果,并且能夠處理不确定性和異常情況,而泛化能力,則是需要能夠應對不同的題目和領域,不僅局限于訓練資料中的知識和方法,還要能夠學習和利用新的知識和方法,解決更複雜和更抽象的問題。

在這輪對話中,向文心一言提了兩個問題,并且都是經過了精心設計——在網際網路上找不到現成的答案。

1,小明想要将一個正方形紙片剪成兩個互不相同的矩形紙片,使得這兩個矩形的周長之和最小。如果正方形的邊長為8厘米,那麼他應該怎樣剪才能實作這個目标?

2,某校的學生進行了一次數學測驗,總分為100分,滿分是10道題,每題10分。測驗結束後,教師發現有一名學生得分超過90分,但沒有得滿分。根據學校的評分制度,學生得分不足10分的情況下将不予評分,隻評分整數部分。請問,該學生得到的具體分數可能是多少?

很出人意料!百度文心一言有了質的飛躍,今年内趕超GPT-4?

文心一言給出的回答顯然是錯的。作為對比,科大訊飛的星火認知,OpenAI的ChatGPT-3.5也沒有好到哪裡去。

很出人意料!百度文心一言有了質的飛躍,今年内趕超GPT-4?

星火認知

很出人意料!百度文心一言有了質的飛躍,今年内趕超GPT-4?

ChatGPT-3.5

不妨看看微軟Bing Chat(GPT-4驅動)給出的答案。對于第1個問題,Bing Chat表示,把正方形沿着對角線剪開,得到兩個等腰直角三角形,這樣兩個矩形(等腰直角三角形)的周長之和最小。Bing Chat甚至在推理過程中還給出了相應的證明。需要注意的是,Bing Chat在推導和計算過程中同樣存在錯誤的地方。對于第2個問題,Bing Chat表示,沒有一個确定的答案,因為不同的評分制度可能會導緻不同的結果。并且,Bing Chat給出了其中一種可能的評分制度,供使用者參考。

很出人意料!百度文心一言有了質的飛躍,今年内趕超GPT-4?
很出人意料!百度文心一言有了質的飛躍,今年内趕超GPT-4?

至于文心一言在其他方面的能力和表現,總體上給人的感覺還行。例如單純地聊天、寫小說、寫古詩、寫新聞,等等。就不再一一贅述。

很出人意料!百度文心一言有了質的飛躍,今年内趕超GPT-4?
很出人意料!百度文心一言有了質的飛躍,今年内趕超GPT-4?

結語:目前的文心一言跟先前的版本相比,幾乎可以認為是脫胎換骨。同時讓外界感覺到,與美國公司的的AI語言模型相比,例如ChatGPT、Bard、Claude等,中國公司開發的AI語言模型同樣具有一定競争力(不是那麼差勁)。繼百度的文心一言、阿裡巴巴的通義之後,位元組跳動和騰訊也将釋出自己的AI語言模型。包括文心一言在内的一部分國産通用大語言模型,追上GPT-4的時間應該要比外界預想的更快。科技領域興起的這一輪AI熱潮。無論美國科技公司,還是中國科技公司,都深知第四次AI科技革命的重要性。即使暫時處于全球領先的GPT-4,也隻是人類發展通用人工智能AGI的起點。

繼續閱讀