近日，斯坦福大學AI團隊疑似抄襲中國大模型創業公司的消息引發業内高度關注。

6月3日，面壁智能CEO李大海與聯合創始人劉知遠先後發文，回應開源模型被斯坦福大學AI團隊抄襲一事。李大海表示：“我們對這件事深表遺憾。一方面感慨這也是一種受到國際團隊認可的方式，另一方面呼籲大家共建開放、合作、有信任的社群環境。”“我們希望團隊的好工作被更多人關注與認可，但不是以這種方式。”

5月29日，一個來自斯坦福的AI團隊開始在網絡上宣傳500美元就能訓練出一個SOTA 多模态模型，該模型名為Llama3-V，作者聲稱Llama3-V比GPT-4V、Gemini Ultra、Claude Opus 性能更強。公開資料顯示，團隊兩位成員是來自斯坦福大學的大學生，曾發表多篇機器學習領域論文，實習經曆包括了AWS、SpaceX等。

由于該團隊成員擁有斯坦福、特斯拉等亮眼背景，Llama3-V項目很快沖到HuggingFace （一個開發者社群和平台）首頁，并引發開發者群體的關注。

一位使用者在社交平台X 與 HuggingFace 上質疑 llama-3V 是否套殼MiniCPM-Llama3-V 2.5 ，後者為面壁智能推出的開源端側多模态模型，于 2024 年 5 月 21 日釋出。

Llama-3V 團隊彼時回應，他們隻是使用了 MiniCPM-Llama3-V 2.5 的tokenizer（分詞器，自然語言進行中的一個重要組成部分），并在 MiniCPM-Llama3-V 2.5 釋出前就開始了這項工作。但團隊并未解釋如何做到在MiniCPM-Llama3-V 2.5釋出之前就擷取詳細tokenizer的具體方式。

但随後，關于上述AI團隊抄襲的聲音越來越多。比如，Llama3-V的模型結構和配置檔案與MiniCPM-Llama3-V 2.5完全相同，隻是進行了一些重新格式化并将部分變量重新命名，如圖像切片、分詞器、重采樣器、資料加載等變量。Llama3-V也具有與MiniCPM-Llama3V 2.5相同的分詞器，包括MiniCPM-Llama3-V 2.5新定義的特殊符号。

據HuggingFace 頁面顯示，最初Llama3-V的作者在上傳代碼時直接導入了 MiniCPM-V 的代碼，然後将名稱更改為 Llama3-V。但作為其中一個作者，Mustafa Aljadery（穆斯塔法·阿爾賈德裡）并不認為該行為屬于抄襲。他發文稱，llama3-v推理存在bug，并不是抄襲。“我已經指出了架構是相似的，但MiniCPM的架構來自Idéfics，我們遵循Idéfics論文中的那些内容。架構是基于綜合研究的，你怎麼能說它是MiniCPM呢？MiniCPM代碼的視覺部分看起來也是從Idéfics那裡使用的。”

清華簡識别，圈紅為正确答案

在李大海看來，另一證據在于Llama3-V同樣使用了面壁智能團隊新設定的清華簡識别能力（清華大學于2008年7月收藏的一批戰國竹簡），且呈現的做錯案例都與MiniCPM一模一樣，而這一訓練資料尚未完全公開。李大海稱，這項工作是團隊同學耗時數個月，從卷帙浩繁的清華簡中一個字一個字掃描下來，并逐一進行資料标注，融合進模型中的。更加微妙的是，兩個模型在高斯擾動驗證（一種用于驗證模型相似性的方法）後，在正确和錯誤表現方面都高度相似。

作者之一解釋删庫原因

目前，上述斯坦福AI團隊已對HuggingFace 上的Llama3-V模型進行隐藏處理，作者解釋該動作時表示：“我是為了修複模型的推理問題而将其隐藏，因為模型必須有特定的配置運作。”

“非常抱歉，我删除了它們，因為推理代碼還沒有準備好，每個人都有運作錯誤。我覺得人們現在最好不要用。你必須有特殊的配置。我一修好就把它放回去。”上述團隊回應。

記者向作者團隊之一的Siddharth Sharma發送郵件，詢問删庫動作的具體原因，以及後續在滿足什麼條件後會進行大模型的恢複。截至發稿前，暫未得到回應。

劉知遠對此事評論稱，人工智能的飛速發展離不開全球算法、資料與模型的開源共享，讓人們始終可以站在SOTA的肩上持續前進。面壁開源的 MiniCPM-Llama3-V 2.5 就用了最新的Llama3 作為語言模型基座。而開源共享的基石是對開源協定的遵守，對其他貢獻者的信任，對前人成果的尊重和緻敬，Llama3-V團隊無疑嚴重破壞了這一點。他們在受到質疑後已在Huggingface删庫，該團隊三人中的兩位也隻是斯坦福大學大學生，未來還有很長的路，如果知錯能改，善莫大焉。

劉知遠表示，國内大模型團隊如智譜-清華GLM、阿裡Qwen、DeepSeek和面壁-清華OpenBMB正在通過持續的開源共享，在國際上受到了廣泛的關注和認可，“這次事件也算側面反映出，我們的創新成果也一直受到國際關注。”劉知遠說。

面壁智能CEO發文回應斯坦福某AI團隊“抄襲”：感到遺憾

最新回應