上周,綜藝《歌手2024》的投票結果引發熱議。孫楠以13.8%位居第三,Chanté Moore以13.11%排第四。一位網友質疑“13.8%比13.11%高?”迅速登上微網誌熱搜。
不僅網友疑惑,AI也頻頻出錯。Allen Institute for AI的研究員林禹臣用大模型測試,結果顯示GPT-4o竟回答13.11比13.8大。
Scale AI的進階提示工程師Riley Goodside也對此展開測試。作為提示詞工程專家,他發現GPT-4o毫不猶豫地認為9.11比9.9大。
不甘心的Riley繼續詢問其他大模型,結果幾乎全軍覆沒,各大模型都給出了同樣的錯誤答案。
我也測試了19家大模型,測試的時候也是歡樂多多,現在将結果分享給大家。
我的測試方法
1. 每個模型都隻做一次測試,同一個廠商的盡量使用最新的版本。
2. 都使用中文提問相同的問題“9.11和9.9哪個大?”。
3. 結果回答正确的就結束測試,回答錯誤的會再次提問相同的提問。
4. 再次回答錯誤的,會問“再思考一下?”
5. 第一次問就回答正确的得3分,第二次得2分,第三次得1分,三問都錯的得0分。
6. 有些搜尋類模型不記上下文,無論對錯都隻問一次,畢竟這個問題最近太火了,搜尋網絡已經接近于作弊了。
再給自己疊一下甲:這個測試并不專業。因為隻做一次測試,同時大模型的回答會随機的,很有可能相同問題相同模型再測一次結果就不一樣了。是以如果你的結果和我的不一樣,那很正常,也不能單以這個測試結果來評判模型好壞。
測試結果
先上最終結果:
不知道這個結果和你預期的是否一樣?
在我這全錯的竟然是海外的兩家和大火的Kimi,再次驗證了“沒有最好的大模型,隻有最合适的大模型”這句話。
讓我們具體來看一下每一家的回答。
OpenAI ChatGPT 4o
和Riley的測試結果不同,GPT 4o回答正确,同時解答過程清楚簡潔。
阿裡通義千問2.5
通義千問也沒有任何問題。
百度文心一言3.5
結果正确,解答過程思路正确,但是應該比較的是十分位而不是百分位,存在筆誤。
訊飛星火4.0
訊飛星火也毫無問題。
面壁智能
面壁智能的Luca平台上是百億級參數的模型,回答也是滴水不漏。
接下去的回答就要開始出錯了,給我提供了不少笑料。
Google Gemini 1.5-Pro
Gemini思路正确,但第一次讀數錯誤。
位元組豆包
豆包屬于邏輯混亂的,上來的回答是錯的,後面的過程和例子是對的,屬于答題太快。
百川智能百小應
第一次沒有過程,直接答錯。第二次有了過程,就算對了。
智譜清言GLM-4
智譜清言第一次借助了網絡還是錯了。而且回答過于搞笑,是在内涵自己嗎?第二次還是一樣,這麼認真的回答錯誤簡直可以去講相聲了。最後終于回答對了,但是過程還是不能細究。
Claude 3.5-Sonnet
Claude 3.5和智譜一開始的錯誤是一樣的,小數位數多的大,你們兩的數學是同一個老師教的嗎?
零一萬物萬知
回答錯誤時,沒有任何解釋。
商湯商量
最後一次回答過程還是錯的,但是評分隻根據最終結果,是以勉強過關。
Meta Llama 3-70b
沒想到最這一屆最差的是Llama 3,每次都錯還無比自信,屬于連個過程分都給不了一點。
月之暗面 Kimi
Kimi和Llama如出一轍的自信,讓人驚掉下巴。
接下去是搜尋組的結果。
騰訊元寶
先給答案,再說了近期熱點,之後給了解題方法,最後還寫了思考和參考資料。如果近期熱點和解題方法的順序能換一下就更完美了。
秘塔搜尋
我用的研究模式,回答實際更長,也提到了解題方法和錯誤原因,甚至還給了避免錯誤的方法和國際标準。再加上右邊的思維導圖,我給滿分。
360 AI搜尋
對網絡熱點總結了一大堆,最後直接在結論裡給了個答案,沒有解題過程,隻能算勉強過關。
昆侖萬維天工3.0
和秘塔搜尋類似,答案正确,解題過程正确,研究模式還分别講了正确和錯誤的方法,也有腦圖和大綱。沒有提到近期熱點,但我的問題也的确沒有包含這一層意思,天工的回答更加貼合,當然一點上仁者見仁了。
Perplexity
Perplexity既給出了正确答案和解題過程,也提到了回答錯誤的原因,還給出了熱點文章。這麼大資訊量卻回答得這麼有條理還這麼簡短,不愧為搜尋AI下的第一。
微軟Copilot
搜尋了網絡還做錯,也隻有Copilot你了。我不死心,試了3次,沒想到3次全錯,可别甩鍋給參考連結了。
大模型誤判原因分析
這看似國小生的算術題,模型卻頻頻出錯。或許在訓練時,大模型更常見這些數字在軟體版本号、股票、基金或匯率中出現,并未意識到應進行雙精度浮點運算。
比如,書籍目錄裡的第9.11節比第9.9節大,軟體版本号也是v9.11比v9.9更新,而訓練資料中類似例子更多,而基礎算術資料較少。
也有業内人士提出,模型在輸入詞和标點向量化排序時忽略了小數點是數字的一部分。LLM将文本作為token處理,導緻數字更像文本字元串而非數值。
當模型把9.11拆成“9”、“小數點”和“11”三部分,11确實比9大。使用這種tokenizer方法的大模型會認為9.11更大,因為11大于9。
從模型的錯誤回答中我們也能看出,部分模型就是認為11大于9,是以認為9.11大于9.9,這是很明顯的模型分詞錯誤導緻的。
結語:AI工具的合理使用
要避免此類問題,目前最簡單的方法就是用傳統計算方式,而不是通過AI,事實也是如此,絕大部分人不會用AI來做如此簡單的數學題。不然這個bug也不會到現在才發現了。
第二個有效地方法就是做好提示詞工程,比如通過讓AI一步一步去想,使用Zero-shot CoT思維鍊,或者讓大模型做完之後再反思,就可以做對。比如我的測試裡,在最後一問“再想想”的情況下,3次全錯的模型也是寥寥無幾的。
AI和你的其他軟體一樣,他隻是工具,隻不過可能是其中比較好用的一個。但是我們在使用中不能盲信AI,和其他所有工具一樣需要了解能用它做什麼,不能做什麼。就像錘子不适合炒菜,現階段的AI也不适合做簡單數學題。使用AI不是目的,高效地完成任務才是。
是以,既然AI現在做不好數學題,那我們不妨就先用電腦和Excel,等到AI掌握了,我們再用它也不遲。
如果你覺得這篇文章對你有所幫助,歡迎點贊、收藏以及轉發分享。同時,請關注我,以擷取更多關于人工智能的最新資訊和見解!
參考: