天天看點

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

作者:量子位

克雷西 發自 凹非寺

量子位 | 公衆号 QbitAI

一項新的“大模型Benchmark”在推特上爆火,LeCun也點贊轉發了!

而且無論是GPT-4還是Claude 3,面對它都如同被奪了魂,無法給出正确答案。

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

難倒一衆大模型的,是邏輯學當中經典的“動物過河”問題,有網友發現,大模型對此類問題表現得很不擅長。

甚至有人觀察到,幾個不同的模型都給出了一緻的(錯誤)答案,讓人懷疑他們是不是用了相同的訓練資料。

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

針對這項測試,網友還定義了一個新的名詞叫“劣效比率”(crapness ratio),讓LeCun打趣說到,一項新的“Benchmark”誕生了。

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

“模見模愁”的動物過河

首先來看一下什麼是“動物過河”問題,這是邏輯學當中的一道經典題目。

問題的原型是這樣的:

農夫需要把狼、羊和白菜都帶過河,但每次隻能帶一樣物品,而且狼和羊不能單獨相處,羊和白菜也不能單獨相處,問農夫該如何過河。
大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

在這個問題當中,農夫需要七次(往返視為兩次)過河——先把羊運過去,然後空船傳回,再把狼運過河,帶回羊,然後運送白菜,再空船傳回,最後運送羊。

而劣效比率的定義,就是模型給出的運送次數與實際最少所需次數的比值。

當然在測試中,網友使用的問題經過了改編,結果發現,當題目變成一共有兩隻雞,一次可以運兩隻的時候,GPT-4依然在一本正經地胡亂分析,最後信誓旦旦地回答是五次。

是以在這種情境下,“劣效比率”就是5。

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

Claude這邊的情況要更離譜一些,明明隻有一隻羊要送,它卻硬生生說要運三次。

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

還有網友發現了華點,把題面改成從東岸運到東岸,也就是根本不需要運送,模型不以為然,依舊我行我素地籌劃着運送方案。

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

這下隻要模型沒識破陷阱,随便說一個數“劣效比率”都會直接變成無窮大。

哪怕問得更直白一些,直接說不需要過河,模型依然會直接開算。

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

是以,這個“劣效比率”更多像是一種玩笑,不太能比較出各模型的能力,或者說離譜程度。

有網友分析,這種現象可能并不意味着大模型推理能力的缺乏,實際上它揭示了訓練資料對大模型輸出的影響。

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

但另一方面,無論問題是否出自推理本身,至少說明了目前的大模型還不是優質的推理工具。

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

那麼,這究竟是個别現象,還是模型的通病?我們選擇了更多的模型進行了測試。

12款模型全軍覆沒

針對這個“Benchmark”,也如法炮制,測了測國産大模型的表現,參賽的選手有文心一言、通義千問等12款大模型。

測試的過程和網友展示的方法相似,Prompt中隻描述問題,不添加額外的提示詞。

對每個大模型,我們都準備了下面這三道題目:

首先進行一下說明:

1、農夫不被計入運送物品的數量限制

2、題目中“獨處”的标準是,隻要有人或其他物品在場,就不屬于獨處

3、往返過程視為兩次過河

以上幾點在Prompt中均有指出。

問題一(正常提問):

一個農夫需要将狼、羊、狐狸、雞和米五種物品運送過河,每次隻能帶兩件,且狼和羊/狐狸和雞/雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?

(答案:五次,隻要第一次運到對岸的兩個物品可以獨處即可。)

問題二(一步到位):

一個農夫需要将狼、羊、狐狸、雞和米五種物品運送過河,每次隻能帶五件,且狼和羊/狐狸和雞/雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?

問題三(陷阱問題):

一個農夫不需要将狼、羊、狐狸、雞和米五種物品運送過河,每次隻能帶兩件,且狼和羊/狐狸和雞/雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?

結果可以說是全軍覆沒,首先用一張表格來整體看下各大模型的表現。

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

第一個問題,各有各的錯法,相同的錯誤類型,這裡每種隻列舉一個例子。

比如文心一言,前面說得沒什麼問題,但最後把狐狸帶回原來的岸邊後忘了再帶過去,最終沒有完成任務:

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

還有訊飛星火這種運着運着,某樣東西自動就跑到了對岸的情況:

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

以上的兩種錯誤比較典型,當然,還有最有意思的錯誤來自躍問——

因為狼和羊不能“獨處”,是以它們需要在一起。

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

這波屬實是把人給整不會了,不過整場測試中,除了這個把“獨處”了解錯的情況之外,倒是都沒有出現讓不能獨處的動物單獨在一起的現象。

當然也有表現好一些的,比如騰訊元寶的方案已經接近可行,隻是最後兩步純屬多餘,而且實際上此時已經無物可運。

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

表現最好的是通義千問,給出的方案雖然麻煩,但是找不出什麼錯誤。

值得注意的是,很多模型給出的方案都會把羊運送過去,然後運一隻雞再把羊運回來,不知道為什麼不直接運雞。

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

另外值得一提的是,我們在Prompt中雖未提及,但基本上接受測試的模型都不約而同地運用到了思維鍊方式,一方面說明了模型确實會使用推理技巧,但另一方面也說明思維鍊的作用是有限的。

而至于後面兩個問題,錯法就比較統一了——根本沒關注到數量限制的變化,更沒看到“不需要”裡的“不”,和前面GPT的錯法也是如出一轍。

大模型測試題爆火,GPT4和Claude都跪了,LeCun轉發:新Benchmark

也就是說,通過這些測試,我們确實無法得知模型有沒有相應的推理能力,因為模型根本就沒仔細讀題。

或許這也是在第一題中,多數模型,哪怕給出了可行的方案,仍然一次隻運送一件物品而不是兩件的原因。

是以,前面網友針對訓練資料和輸出關系的分析,可能不無道理。

參考連結:

[1]https://x.com/wtgowers/status/1804565549789135256

[2]https://x.com/ylecun/status/1804641976249417882

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀