克雷西發自凹非寺

量子位 | 公衆号 QbitAI

一項新的“大模型Benchmark”在推特上爆火，LeCun也點贊轉發了！

而且無論是GPT-4還是Claude 3，面對它都如同被奪了魂，無法給出正确答案。

大模型測試題爆火，GPT4和Claude都跪了，LeCun轉發：新Benchmark

難倒一衆大模型的，是邏輯學當中經典的“動物過河”問題，有網友發現，大模型對此類問題表現得很不擅長。

甚至有人觀察到，幾個不同的模型都給出了一緻的（錯誤）答案，讓人懷疑他們是不是用了相同的訓練資料。

針對這項測試，網友還定義了一個新的名詞叫“劣效比率”（crapness ratio），讓LeCun打趣說到，一項新的“Benchmark”誕生了。

“模見模愁”的動物過河

首先來看一下什麼是“動物過河”問題，這是邏輯學當中的一道經典題目。

問題的原型是這樣的：

農夫需要把狼、羊和白菜都帶過河，但每次隻能帶一樣物品，而且狼和羊不能單獨相處，羊和白菜也不能單獨相處，問農夫該如何過河。

在這個問題當中，農夫需要七次（往返視為兩次）過河——先把羊運過去，然後空船傳回，再把狼運過河，帶回羊，然後運送白菜，再空船傳回，最後運送羊。

而劣效比率的定義，就是模型給出的運送次數與實際最少所需次數的比值。

當然在測試中，網友使用的問題經過了改編，結果發現，當題目變成一共有兩隻雞，一次可以運兩隻的時候，GPT-4依然在一本正經地胡亂分析，最後信誓旦旦地回答是五次。

是以在這種情境下，“劣效比率”就是5。

Claude這邊的情況要更離譜一些，明明隻有一隻羊要送，它卻硬生生說要運三次。

還有網友發現了華點，把題面改成從東岸運到東岸，也就是根本不需要運送，模型不以為然，依舊我行我素地籌劃着運送方案。

這下隻要模型沒識破陷阱，随便說一個數“劣效比率”都會直接變成無窮大。

哪怕問得更直白一些，直接說不需要過河，模型依然會直接開算。

是以，這個“劣效比率”更多像是一種玩笑，不太能比較出各模型的能力，或者說離譜程度。

有網友分析，這種現象可能并不意味着大模型推理能力的缺乏，實際上它揭示了訓練資料對大模型輸出的影響。

但另一方面，無論問題是否出自推理本身，至少說明了目前的大模型還不是優質的推理工具。

那麼，這究竟是個别現象，還是模型的通病？我們選擇了更多的模型進行了測試。

12款模型全軍覆沒

針對這個“Benchmark”，也如法炮制，測了測國産大模型的表現，參賽的選手有文心一言、通義千問等12款大模型。

測試的過程和網友展示的方法相似，Prompt中隻描述問題，不添加額外的提示詞。

對每個大模型，我們都準備了下面這三道題目：

首先進行一下說明：

1、農夫不被計入運送物品的數量限制

2、題目中“獨處”的标準是，隻要有人或其他物品在場，就不屬于獨處

3、往返過程視為兩次過河

以上幾點在Prompt中均有指出。

問題一（正常提問）：

一個農夫需要将狼、羊、狐狸、雞和米五種物品運送過河，每次隻能帶兩件，且狼和羊/狐狸和雞/雞和米不能單獨相處，每次運送時農夫必須在船上，最少需要過河幾次？

（答案：五次，隻要第一次運到對岸的兩個物品可以獨處即可。）

問題二（一步到位）：

一個農夫需要将狼、羊、狐狸、雞和米五種物品運送過河，每次隻能帶五件，且狼和羊/狐狸和雞/雞和米不能單獨相處，每次運送時農夫必須在船上，最少需要過河幾次？

問題三（陷阱問題）：

一個農夫不需要将狼、羊、狐狸、雞和米五種物品運送過河，每次隻能帶兩件，且狼和羊/狐狸和雞/雞和米不能單獨相處，每次運送時農夫必須在船上，最少需要過河幾次？

結果可以說是全軍覆沒，首先用一張表格來整體看下各大模型的表現。

第一個問題，各有各的錯法，相同的錯誤類型，這裡每種隻列舉一個例子。

比如文心一言，前面說得沒什麼問題，但最後把狐狸帶回原來的岸邊後忘了再帶過去，最終沒有完成任務：

還有訊飛星火這種運着運着，某樣東西自動就跑到了對岸的情況：

以上的兩種錯誤比較典型，當然，還有最有意思的錯誤來自躍問——

因為狼和羊不能“獨處”，是以它們需要在一起。

這波屬實是把人給整不會了，不過整場測試中，除了這個把“獨處”了解錯的情況之外，倒是都沒有出現讓不能獨處的動物單獨在一起的現象。

當然也有表現好一些的，比如騰訊元寶的方案已經接近可行，隻是最後兩步純屬多餘，而且實際上此時已經無物可運。

表現最好的是通義千問，給出的方案雖然麻煩，但是找不出什麼錯誤。

值得注意的是，很多模型給出的方案都會把羊運送過去，然後運一隻雞再把羊運回來，不知道為什麼不直接運雞。

另外值得一提的是，我們在Prompt中雖未提及，但基本上接受測試的模型都不約而同地運用到了思維鍊方式，一方面說明了模型确實會使用推理技巧，但另一方面也說明思維鍊的作用是有限的。

而至于後面兩個問題，錯法就比較統一了——根本沒關注到數量限制的變化，更沒看到“不需要”裡的“不”，和前面GPT的錯法也是如出一轍。

也就是說，通過這些測試，我們确實無法得知模型有沒有相應的推理能力，因為模型根本就沒仔細讀題。

或許這也是在第一題中，多數模型，哪怕給出了可行的方案，仍然一次隻運送一件物品而不是兩件的原因。

是以，前面網友針對訓練資料和輸出關系的分析，可能不無道理。

參考連結：

[1]https://x.com/wtgowers/status/1804565549789135256

[2]https://x.com/ylecun/status/1804641976249417882

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

大模型測試題爆火，GPT4和Claude都跪了，LeCun轉發：新Benchmark

“模見模愁”的動物過河

12款模型全軍覆沒

繼續閱讀

鵬華文心大模型|叮咚！您有一封指數世界邀請函，請接收（六）

暴雨主動安全測試之後，才知道小米汽車和華為系的差距！

走進港口看發展 | 從“無人碼頭”到“大模型”——智慧賦能津港效率“金招牌”

整合多組學資料，華大圖神經網絡模型SpatialGlue登Nature子刊

訊飛星火V4.0來襲，整體超越GPT-4 Turbo，8個國際主流測試第一

從國産視訊生成大模型海外爆紅看中國AI發展路徑

大模型連續實作多款高難度蛋白質産品産業化落地

精準執裁助力比賽，本屆運動會馬上項目舉行場地測試賽！

暖哇科技加速推進AI大模型在保險業的深度應用，私域産能提升20%+

如何用ChatWiki大模型RAG知識庫，實作視訊号小店客服自動回複

【“檢護民生”專場】大資料法律監督模型競賽全名單來了！

三角洲行動pc端測試資格擷取手把手教你擷取三角洲行動測試資格

實測國産大模型訊飛星火V4.0: 基座能力“打底”, 個人空間“探高”

訊飛星火大模型企業智能體平台釋出，打造每個崗位專屬助手

三句話，我讓NAS幫我寫好了前端代碼！大模型的多樣用法

DI-engine強化學習入門（十）如何使用RNN——模型建構和包裝