探索Open LLM Leaderboard中的有趣問題:LLaMA模型的MMLU評估數字為什麼那麼低?
最近在Twitter上面也得到了很多的質疑,因為他用了一個叫MMLU的算法,huggingface的大語言開放的LLM的排行榜,都是基于自動化的測試來實作的。
有人發現LLAMA的模型在huggingface的排行榜上面的排名非常低,因為在這篇論文釋出的時候,也是用了相同的MMALU的自動評估模式去評估模型的。但是發現有他們在論文釋出的時候,這個模型的原始的得分要達到是在裡面隻有0.4830。
是以在吹的上就有很多人就開始去質疑huggingface的大型預預訓練模型的排行榜,自動評估的方式是否有效,等于是這樣。是以經常他們做了有很多的調查,那他就公布了這樣一篇部落格,那這篇部落格裡面就詳細介紹了他的方法和為什麼這個方法評估出來,他的得分差異是非常大的。
那我也仔細看了一下這篇文章,這篇文章裡面前面講的都很多,都是一些原理性的東西,就不看了。一方面前面解釋是目前大訓練的大模型,相對來講都是通過機率的,是以它通過這種機率很有可能在abcd選擇裡面,有可能在理論上來講也是有可能選錯的,這種機率是比較高的。
最大的問題主要是出在歧視上面,因為在MMLU的評估上面,主要就是給你四個答案,ABCD,然後在四個答案裡面去選擇一個合适的答案。原始的實作它的提示是比較小的,它是我看了一下,這個地方是沒有question的。沒有choice的。
但是在最後的實作裡面,他們會把AI的提示工程裡面把道和choice都加上了,是以提示上面略微的差異就會導緻大模型出來的結果。特别是LLama-65b的模型的差異就有差,準确率就有,差異程度就有超過30%等于是這樣。
當然我看了一下其他的一般的模型差異沒這麼大,是LLama-65B的模型。它三種不同的提示方式,準确性的差異從0.63%,差異性是非常大的,等于是這樣。是以當然這個也證明了模型就是提示工程對大型預訓練模型的影響程度是非常高的。相同的問題不同的提示,稍微有些差異,那麼準确度就是差異是非常大的。
盡管模型的預訓類模型的參數都沒有變化,但是如果提示不一樣,最終的準确度就非常大,是以他們整個結論就是哈根費斯的排行榜。最後結論是這樣的,他們目前的MMLU的自動的模型的比對的測試方案還是正确的,隻是說提示的方式不太一樣,會導緻有些模型裡面準确度的差異就會非常大,等于是這樣。
是以他們認為,目前跟費是開源的,這樣的大型的開源欲訓練模型的排行榜,相對來講還是比較公正和客觀的。這個是他們的結論,他們也會糾正一下目前的提示工程,也會去修正一下提示工程,盡可能讓提示工程讓每一個模型都能夠把能力給發揮出來,等于是這樣。
是以這次在treat上面的比較大的争論,基本上就通過這個他們的部落格,基本上就平息下去了,是這樣的結論。
今天就聊到這個話題,我就跟大家聊到這。當然它目前在哈根face上排名第一的阿布紮比飛鷹杠40B的模型。其實它的準确度還是非常高,是以别人說他們這個模型确實是挺厲害的。
目前來看排行榜相對來講,它的排名還是比較公正和客觀的,有一定的參考依據。它等于是這樣。
今天就跟大家就聊到這。