衡宇發自凹非寺

量子位 | 公衆号 QbitAI

萬萬想不到啊，MIT數學考試，被GPT-4攻破了？！

突然有人在最新論文工作中高調宣布：

GPT-4在MIT的數學和EECS（電氣工程和計算機科學系）大學學位考試中，表現出的能力完全滿足畢業要求。

而且妥妥地拿下滿分！

要知道，測出這個結果的不是别人，正是來自MIT和波士頓大學、康奈爾大學的研究團隊。

而且強如上一代王者GPT-3.5，在同樣的測試中，隻成功搞定了三分之一。

△GPT-3.5考試成績

論文一出，無數目光迅速被吸引過來。

GPT-4這樣看似開挂的行為，自然引發了不少網友的感慨。

比GPT-3.5強好多，好耶！

咱就是說，有沒有可能以後不需要比GPT-4更強的模型，來解決學術問題了？

還有網友展現了自己網上沖浪的“前沿性”，玩了個這兩天Yann LeCun吐槽“GPT-4智商不如狗”的梗：

GPT-4開挂MIT考試

具體來說，GPT-4這次是參與了這樣一場測試：

研究團隊策劃了一個資料集，其中包含4550個問題和解決方案。

這4550個問題和解決方案，來自MIT數學系和EECS的學生獲得大學學位，需要學習的課程問題集、期中考試和期末考試。

包括：

6-1：電氣科學與工程；

6-2：電氣工程與計算機科學；

6-3：計算機科學與工程；

6-4：人工智能與決策；

18-1：普通數學；

18-2：應用數學；

18-3：純數學；

18-C：數學與計算機科學。

△每個專業的詳細分類總結

題目統統出自MIT的資料集，從中随機生成228個問題，不涉及圖像和已有解決方案的問題。

題目的難度等級由易到難依次為：練習、習題、期中考試、期末考試、實驗和專題。

按答案類型排序，題目的難度由易到難依次為：程式設計、開放、選擇題、數值、表達式和圖像。

這一次，參與考試的不隻有GPT-4和GPT-3.5，還有StableVicuna-13B、LLaMA-30B和LLaMA-60B。

選擇讓這4個大模型作為考試參賽選手，原因是它們是“最先進的大語言模型”。

△最終考試成績

通過表格裡的資料可以看到，得分最高的是經過調優後的GPT-4，得分率100%；表現最一般的是LLaMA-30B，隻拿下了30%的分數。

值得關注的是，原始版本的GPT-4開箱即用，完全不經過調優，在本次MIT考試中也拿到了90%的分數。

調優流程，包括Few-Shot+CoT+Self-critique+Experts。

從最終考試成績的表格資料可以看到，從左到右每增加一個環節，調優後的GPT-4得分都會更上一層樓。

此外，研究團隊還在提示框裡進行了工程優化，具體的“咒語”如下：

等等，評分人是GPT-4自己？

看到這樣的結果，不少網友心生感慨，LLM在數學考試上的進步，未免有些神速了哈。

2年前，AI還在苦苦掙紮國小數學問題。

類似“小明種了5棵檸檬樹，每年從每棵樹上得到6個檸檬，10年間他總共得到多少檸檬”這種。

去年年初，MIT+哈佛+哥倫比亞大學+滑鐵盧大學的聯合研究表示，把數學問題轉換成等價的程式設計問題，就可以讓GPT-3的同門師兄弟——OpenAI的Codex掌握高數，達到MIT大學水準。

學了6門MIT大學基礎數學課裡随機抽取的例題，6門課程每門随機出25道題，再加上一個ACT水準（美國聯考）的資料集裡的60道題。

總計210道題，AI全部答對。

不過有人提出，AI達到的“MIT大學水準”，實際是Codex在做語言題而非數學題——

因為當時的評測中，Codex負責讀寫，并不包括求解。

是以，這一回GPT-4表現奇佳，怎一個妙字了得～

好了，知道你很着急誇它，但你先别着急誇它，因為很快有人發現了一些“詭異”。

主要有2大槽點。

第一個值得質疑一番的，就是OpenAI的訓練資料集沒有完全公布。

這也就意味着，無法證明資料集中的4550個問題和解決方案，在GPT-4的訓練集中不存在。

換句話說，如果GPT-4在預訓練階段已經接觸到了這次的考題們，那最終拿下完美得分，就沒什麼好驚喜的了。

也難怪乎有網友毫不客氣地yygq，認定GPT-4拿到這樣的結果，一定是資料集已經包含在訓練資料裡了。

第二個槽點，就是GPT-4最後100%的得分率，似乎哪裡不對勁？？？

定睛一看，在論文的第2.6節有一句很關鍵的點：

團隊在資料集上微調開源大模型，“給定問題Q、基本事實解S和LLM答案A，我們使用GPT-4自動對模型響應進行評分”。

實際操作上，就是每個大模型生成這次考試的答案，然後派出GPT-4打分，分值在0-5之間。

是以給GPT-4打出滿分的，實際上是GPT-4自己。

啊這……很難說沒有王婆賣瓜自賣自誇的嫌疑。

此外，關于要給GPT-4提供“好的提示”，才能讓它達到滿分成績，也讓許多人抱有微詞。

到底什麼算“好的提示”呢？似乎無法定義。

甚至有人喊着，應該把這些題丢給MIT數學和EECS的學生去做，并不斷給他們“好的提示”，這樣人類學生也能拿下100%的吧……

One More Thing

一個小小的彩蛋：

整個測試中，基本上可以在筆記本電腦上部署運作的StableVicuna-13B，也有48%的得分率。

這個成績，不僅比模型更大的LLaMA-65B高出近10個百分點，就連MIT fine-tuing過後的LLaMA-30B，還要高。

讓人不得不陷入一些關于模型規模與能力相關性的思考

。

參考連結：

[1]https://arxiv.org/abs/2306.08997

[2]https://twitter.com/johnjnay/status/1669687958960586753

[3]https://twitter.com/arankomatsuzaki/status/1669528841629601792

[4]https://twitter.com/emollick/status/1669742473097228292

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

GPT-4滿分通過MIT大學數學考試！這套提示詞火了

GPT-4開挂MIT考試

等等，評分人是GPT-4自己？

One More Thing