天天看點

面壁智能CEO發文回應斯坦福某AI團隊“抄襲”:感到遺憾

作者:知産前沿
面壁智能CEO發文回應斯坦福某AI團隊“抄襲”:感到遺憾

近日,斯坦福大學AI團隊疑似抄襲中國大模型創業公司的消息引發業内高度關注。

面壁智能CEO發文回應斯坦福某AI團隊“抄襲”:感到遺憾

6月3日,面壁智能CEO李大海與聯合創始人劉知遠先後發文,回應開源模型被斯坦福大學AI團隊抄襲一事。李大海表示:“我們對這件事深表遺憾。一方面感慨這也是一種受到國際團隊認可的方式,另一方面呼籲大家共建開放、合作、有信任的社群環境。”“我們希望團隊的好工作被更多人關注與認可,但不是以這種方式。”

5月29日,一個來自斯坦福的AI團隊開始在網絡上宣傳500美元就能訓練出一個SOTA 多模态模型,該模型名為Llama3-V,作者聲稱Llama3-V比GPT-4V、Gemini Ultra、Claude Opus 性能更強。公開資料顯示,團隊兩位成員是來自斯坦福大學的大學生,曾發表多篇機器學習領域論文,實習經曆包括了AWS、SpaceX等。

面壁智能CEO發文回應斯坦福某AI團隊“抄襲”:感到遺憾

由于該團隊成員擁有斯坦福、特斯拉等亮眼背景,Llama3-V項目很快沖到HuggingFace (一個開發者社群和平台)首頁,并引發開發者群體的關注。

一位使用者在社交平台X 與 HuggingFace 上質疑 llama-3V 是否套殼MiniCPM-Llama3-V 2.5 ,後者為面壁智能推出的開源端側多模态模型,于 2024 年 5 月 21 日釋出。

Llama-3V 團隊彼時回應,他們隻是使用了 MiniCPM-Llama3-V 2.5 的tokenizer(分詞器,自然語言進行中的一個重要組成部分),并在 MiniCPM-Llama3-V 2.5 釋出前就開始了這項工作。但團隊并未解釋如何做到在MiniCPM-Llama3-V 2.5釋出之前就擷取詳細tokenizer的具體方式。

但随後,關于上述AI團隊抄襲的聲音越來越多。比如,Llama3-V的模型結構和配置檔案與MiniCPM-Llama3-V 2.5完全相同,隻是進行了一些重新格式化并将部分變量重新命名,如圖像切片、分詞器、重采樣器、資料加載等變量。Llama3-V也具有與MiniCPM-Llama3V 2.5相同的分詞器,包括MiniCPM-Llama3-V 2.5新定義的特殊符号。

據HuggingFace 頁面顯示,最初Llama3-V的作者在上傳代碼時直接導入了 MiniCPM-V 的代碼,然後将名稱更改為 Llama3-V。但作為其中一個作者,Mustafa Aljadery(穆斯塔法·阿爾賈德裡)并不認為該行為屬于抄襲。他發文稱,llama3-v推理存在bug,并不是抄襲。“我已經指出了架構是相似的,但MiniCPM的架構來自Idéfics,我們遵循Idéfics論文中的那些内容。架構是基于綜合研究的,你怎麼能說它是MiniCPM呢?MiniCPM代碼的視覺部分看起來也是從Idéfics那裡使用的。”

面壁智能CEO發文回應斯坦福某AI團隊“抄襲”:感到遺憾

清華簡識别,圈紅為正确答案

在李大海看來,另一證據在于Llama3-V同樣使用了面壁智能團隊新設定的清華簡識别能力(清華大學于2008年7月收藏的一批戰國竹簡),且呈現的做錯案例都與MiniCPM一模一樣,而這一訓練資料尚未完全公開。李大海稱,這項工作是團隊同學耗時數個月,從卷帙浩繁的清華簡中一個字一個字掃描下來,并逐一進行資料标注,融合進模型中的。更加微妙的是,兩個模型在高斯擾動驗證(一種用于驗證模型相似性的方法)後,在正确和錯誤表現方面都高度相似。

面壁智能CEO發文回應斯坦福某AI團隊“抄襲”:感到遺憾

作者之一解釋删庫原因

目前,上述斯坦福AI團隊已對HuggingFace 上的Llama3-V模型進行隐藏處理,作者解釋該動作時表示:“我是為了修複模型的推理問題而将其隐藏,因為模型必須有特定的配置運作。”

“非常抱歉,我删除了它們,因為推理代碼還沒有準備好,每個人都有運作錯誤。我覺得人們現在最好不要用。你必須有特殊的配置。我一修好就把它放回去。”上述團隊回應。

記者向作者團隊之一的Siddharth Sharma發送郵件,詢問删庫動作的具體原因,以及後續在滿足什麼條件後會進行大模型的恢複。截至發稿前,暫未得到回應。

劉知遠對此事評論稱,人工智能的飛速發展離不開全球算法、資料與模型的開源共享,讓人們始終可以站在SOTA的肩上持續前進。面壁開源的 MiniCPM-Llama3-V 2.5 就用了最新的Llama3 作為語言模型基座。而開源共享的基石是對開源協定的遵守,對其他貢獻者的信任,對前人成果的尊重和緻敬,Llama3-V團隊無疑嚴重破壞了這一點。他們在受到質疑後已在Huggingface删庫,該團隊三人中的兩位也隻是斯坦福大學大學生,未來還有很長的路,如果知錯能改,善莫大焉。

劉知遠表示,國内大模型團隊如智譜-清華GLM、阿裡Qwen、DeepSeek和面壁-清華OpenBMB正在通過持續的開源共享,在國際上受到了廣泛的關注和認可,“這次事件也算側面反映出,我們的創新成果也一直受到國際關注。”劉知遠說。

最新回應

6月4日最新進展,斯坦福Llama3-V團隊的兩位作者Siddharth Sharma(森德哈斯·沙瑪)和 Aksh Garg(阿克沙·加格)在社交平台上就這一學術不端行為向面壁MiniCPM團隊正式道歉,并表示會将Llama3-V模型悉數撤下。

Aksh Garg(阿克沙·加格)表示,“首先,我們要向MiniCPM原作者道歉。我、Siddharth Sharma,以及Mustafa(穆斯塔法)一起釋出了Llama3-V,Mustafa為這個項目編寫了代碼,但從昨天起就無法聯系他。我與Siddharth Sharma主要負責幫助Mustafa進行模型推廣。我們倆檢視了最新的論文,以驗證這項工作的新穎性,但并未被告知或意識到OpenBMB(清華團隊支援發起的大規模預訓練語言模型庫與相關工具)之前的任何工作。我們向作者道歉,并對自己沒有努力驗證這項工作的原創性感到失望。我們對所發生的事情承擔全部責任,并已撤下Llama3-V,再次緻歉。”

來源:第一财經

編輯:Sharon

面壁智能CEO發文回應斯坦福某AI團隊“抄襲”:感到遺憾