上周，綜藝《歌手2024》的投票結果引發熱議。孫楠以13.8%位居第三，Chanté Moore以13.11%排第四。一位網友質疑“13.8%比13.11%高？”迅速登上微網誌熱搜。

不僅網友疑惑，AI也頻頻出錯。Allen Institute for AI的研究員林禹臣用大模型測試，結果顯示GPT-4o竟回答13.11比13.8大。

Scale AI的進階提示工程師Riley Goodside也對此展開測試。作為提示詞工程專家，他發現GPT-4o毫不猶豫地認為9.11比9.9大。

不甘心的Riley繼續詢問其他大模型，結果幾乎全軍覆沒，各大模型都給出了同樣的錯誤答案。

我也測試了19家大模型，測試的時候也是歡樂多多，現在将結果分享給大家。

我的測試方法

1. 每個模型都隻做一次測試，同一個廠商的盡量使用最新的版本。

2. 都使用中文提問相同的問題“9.11和9.9哪個大？”。

3. 結果回答正确的就結束測試，回答錯誤的會再次提問相同的提問。

4. 再次回答錯誤的，會問“再思考一下？”

5. 第一次問就回答正确的得3分，第二次得2分，第三次得1分，三問都錯的得0分。

6. 有些搜尋類模型不記上下文，無論對錯都隻問一次，畢竟這個問題最近太火了，搜尋網絡已經接近于作弊了。

再給自己疊一下甲：這個測試并不專業。因為隻做一次測試，同時大模型的回答會随機的，很有可能相同問題相同模型再測一次結果就不一樣了。是以如果你的結果和我的不一樣，那很正常，也不能單以這個測試結果來評判模型好壞。

測試結果

先上最終結果：

不知道這個結果和你預期的是否一樣？

在我這全錯的竟然是海外的兩家和大火的Kimi，再次驗證了“沒有最好的大模型，隻有最合适的大模型”這句話。

讓我們具體來看一下每一家的回答。

OpenAI ChatGPT 4o

和Riley的測試結果不同，GPT 4o回答正确，同時解答過程清楚簡潔。

阿裡通義千問2.5

通義千問也沒有任何問題。

百度文心一言3.5

結果正确，解答過程思路正确，但是應該比較的是十分位而不是百分位，存在筆誤。

訊飛星火4.0

訊飛星火也毫無問題。

面壁智能

面壁智能的Luca平台上是百億級參數的模型，回答也是滴水不漏。

接下去的回答就要開始出錯了，給我提供了不少笑料。

Google Gemini 1.5-Pro

Gemini思路正确，但第一次讀數錯誤。

位元組豆包

豆包屬于邏輯混亂的，上來的回答是錯的，後面的過程和例子是對的，屬于答題太快。

百川智能百小應

第一次沒有過程，直接答錯。第二次有了過程，就算對了。

智譜清言GLM-4

智譜清言第一次借助了網絡還是錯了。而且回答過于搞笑，是在内涵自己嗎？第二次還是一樣，這麼認真的回答錯誤簡直可以去講相聲了。最後終于回答對了，但是過程還是不能細究。

Claude 3.5-Sonnet

Claude 3.5和智譜一開始的錯誤是一樣的，小數位數多的大，你們兩的數學是同一個老師教的嗎？

零一萬物萬知

回答錯誤時，沒有任何解釋。

商湯商量

最後一次回答過程還是錯的，但是評分隻根據最終結果，是以勉強過關。

Meta Llama 3-70b

沒想到最這一屆最差的是Llama 3，每次都錯還無比自信，屬于連個過程分都給不了一點。

月之暗面 Kimi

Kimi和Llama如出一轍的自信，讓人驚掉下巴。

接下去是搜尋組的結果。

騰訊元寶

先給答案，再說了近期熱點，之後給了解題方法，最後還寫了思考和參考資料。如果近期熱點和解題方法的順序能換一下就更完美了。

秘塔搜尋

我用的研究模式，回答實際更長，也提到了解題方法和錯誤原因，甚至還給了避免錯誤的方法和國際标準。再加上右邊的思維導圖，我給滿分。

360 AI搜尋

對網絡熱點總結了一大堆，最後直接在結論裡給了個答案，沒有解題過程，隻能算勉強過關。

昆侖萬維天工3.0

和秘塔搜尋類似，答案正确，解題過程正确，研究模式還分别講了正确和錯誤的方法，也有腦圖和大綱。沒有提到近期熱點，但我的問題也的确沒有包含這一層意思，天工的回答更加貼合，當然一點上仁者見仁了。

Perplexity

Perplexity既給出了正确答案和解題過程，也提到了回答錯誤的原因，還給出了熱點文章。這麼大資訊量卻回答得這麼有條理還這麼簡短，不愧為搜尋AI下的第一。

微軟Copilot

搜尋了網絡還做錯，也隻有Copilot你了。我不死心，試了3次，沒想到3次全錯，可别甩鍋給參考連結了。

大模型誤判原因分析

這看似國小生的算術題，模型卻頻頻出錯。或許在訓練時，大模型更常見這些數字在軟體版本号、股票、基金或匯率中出現，并未意識到應進行雙精度浮點運算。

比如，書籍目錄裡的第9.11節比第9.9節大，軟體版本号也是v9.11比v9.9更新，而訓練資料中類似例子更多，而基礎算術資料較少。

也有業内人士提出，模型在輸入詞和标點向量化排序時忽略了小數點是數字的一部分。LLM将文本作為token處理，導緻數字更像文本字元串而非數值。

當模型把9.11拆成“9”、“小數點”和“11”三部分，11确實比9大。使用這種tokenizer方法的大模型會認為9.11更大，因為11大于9。

從模型的錯誤回答中我們也能看出，部分模型就是認為11大于9，是以認為9.11大于9.9，這是很明顯的模型分詞錯誤導緻的。

結語：AI工具的合理使用

要避免此類問題，目前最簡單的方法就是用傳統計算方式，而不是通過AI，事實也是如此，絕大部分人不會用AI來做如此簡單的數學題。不然這個bug也不會到現在才發現了。

第二個有效地方法就是做好提示詞工程，比如通過讓AI一步一步去想，使用Zero-shot CoT思維鍊，或者讓大模型做完之後再反思，就可以做對。比如我的測試裡，在最後一問“再想想”的情況下，3次全錯的模型也是寥寥無幾的。

AI和你的其他軟體一樣，他隻是工具，隻不過可能是其中比較好用的一個。但是我們在使用中不能盲信AI，和其他所有工具一樣需要了解能用它做什麼，不能做什麼。就像錘子不适合炒菜，現階段的AI也不适合做簡單數學題。使用AI不是目的，高效地完成任務才是。

是以，既然AI現在做不好數學題，那我們不妨就先用電腦和Excel，等到AI掌握了，我們再用它也不遲。

如果你覺得這篇文章對你有所幫助，歡迎點贊、收藏以及轉發分享。同時，請關注我，以擷取更多關于人工智能的最新資訊和見解！

參考：

AI集體降智？為何各模型誤判“9.11>9.9”？我實測了19家AI大模型

我的測試方法

測試結果

大模型誤判原因分析

結語：AI工具的合理使用

繼續閱讀

【AASLD2024速遞】聚乙二醇幹擾素α-2b治療獲得HBsAg清除的療程預測：基于基線HBsAg水準建立的簡單模型

大模型引領6G革命！最新綜述探索未來通信方式覆寫多模态、RAG等

大模型頂流CP由甜轉虐：互相不滿，都找備胎，因為錢鬧不愉快

Archetype AI釋出牛頓實體學大模型，從傳感器資料中學習實體原理

CNCC | 大模型下的多模态情感計算未來

“伏羲慧眼”大模型重磅釋出！擁有全球規模最大的眼科圖像資料庫

新車 | AI大模型上車，13項新增/27項優化，極氪009光輝OTA更新

AI日報：複旦、百度新模型可生成1小時長視訊；全新ChatGPT Windows版本上線；NotebookLM又上2個新功能

測繪通報 | 任萍：基于LOD1城市模型的噪聲資料可視化

終端AI分級标準落地，手機大模型“戰火”燒到了智能體

J Clin Invest丨楊偉莉/李世華/李曉江團隊利用猴模型揭示帕金森疾病新病理機制

大模型訓練遭投毒損失千萬美元？Anthropic發現LLM代碼庫暗藏bug

全市近千名青少年齊聚中海博，在航海、航空、建築三大模型競賽中一展身手

DeepMind聯合MIT開發Fluid，讓自回歸模型實作文生圖的大規模擴充

AI周報 | 位元組跳動大模型訓練被“投毒”；微軟将終止中國個人Azure OpenAI服務

位元組跳動回應大模型訓練被實習生攻擊：已被辭退，不影響線上業務

AI集體降智？為何各模型誤判“9.11&gt;9.9”？我實測了19家AI大模型

我的測試方法

測試結果

大模型誤判原因分析

結語：AI工具的合理使用

繼續閱讀

AI集體降智？為何各模型誤判“9.11>9.9”？我實測了19家AI大模型