天天看點

為什麼斯坦福大學生要抄襲中國大模型?

為什麼斯坦福大學生要抄襲中國大模型?

吳曉波頻道

2024-06-05 09:00釋出于浙江杭州巴九靈文化創意股份有限公司官方賬号

“他們會設法複制一切,卻無法複制我的思想,我讓他們辛苦偷竊,卻永遠落後我一年半載。”

——Rudyard Kipling(印度作家)

為什麼斯坦福大學生要抄襲中國大模型?

文 / 巴九靈(微信公衆号:吳曉波頻道)

美國大模型抄襲了中國?

6月初,一些眼尖的網友發現,一個來自美國斯坦福大學的AI團隊于5月29日釋出了一款名為Llama3V的大模型,号稱隻要500美元就能訓練出一個 SOTA多模态模型,且效果比肩OpenAI的GPT-4V、谷歌DeepMind開發的Gemini Ultra與Anthropic目前能力最強的模型Claude Opus。

然而,經過網友仔細查驗,這款大模型疑似抄襲、“套殼”一家由中國大模型公司面壁智能的開源成果——MiniCPM-Llama3-V 2.5,後者是在5月中旬釋出的。

所謂“套殼”,深度科技研究院院長張孝榮對小巴解釋道:“通常是指在不改變核心算法和架構的情況下,對模型進行一些表面的調整或包裝,并聲稱是原創。”

FutureLabs未來實驗室首席專家胡延平進一步科普表示:模型開源本身就意味着開放給他人使用,可以說所有基于開源大模型的微調等二次開發都是在套殼。

差別在于,是明确聲稱基于别人的開源大模型來做——一個比較流行的規範做法是明示:同時感謝或緻敬。

但很多隻眼睛看了又看斯坦福團隊的Llama3V後發現,并沒有相關辨別。

據雷鋒網的觀察,一開始,由于這款産品的主創團隊有斯坦福背景,又集齊了特斯拉、SpaceX、亞馬遜與牛津大學等機構的相關經曆,是以模型釋出後備受矚目。

發現不對勁後,6月2日,網友試圖在Llama3V的Github項目下抛出事實性質疑,但很快被Llama3V的團隊删除,網友被這種不坦誠的舉動激怒,開始在論壇公開曝光,并提醒面壁智能團隊“打假”。

被抄襲方面壁智能是一家已完成數億元融資的國内知名創業公司,擁有100多名研發人員,其中80%來自清華北大。

6月2日,面壁智能團隊深夜回應,MiniCPM-Llama3-V 2.5曾被用于識别清華大學藏戰國竹簡(後簡稱“清華簡”)上的戰國古文字,團隊花費數月在清華簡上逐字掃描并人工标注,且從未對外公開。

然而,測試後團隊發現,斯坦福的模型不僅能識别出“清華簡”中的戰國古文字,而且連錯誤的識别結果都與MiniCPM模型完全一緻,由此坐實抄襲。

為什麼斯坦福大學生要抄襲中國大模型?

消息傳到國内,一石激起千層浪。

卧龍抄襲了鳳雛?

這次的抄襲事件之是以備受矚目,在于事件主角的特殊性:斯坦福大學和清華大學,以及一些“意外感”加持——是美國團隊抄襲了中國團隊(細想反而有些心酸)。

根據AMiner釋出的《全球十個大模型核心團隊成員分析報告》,十款全球著名的大模型GPT、Gemini、Claude、GLM、LLaMA、Qwen、Falcon、PaLM、BERT、T5的全部核心成員中,大都經過加州大學系統和斯坦福大學培養,而清華大學是其中唯一一所上榜的中國高校。

*小巴注:加州大學不是一所大學,而是由加州的公立大學所組成的大學系統,分别位于加州不同的市,但十所不同的分校大多都有名。

為什麼斯坦福大學生要抄襲中國大模型?

此外,熟悉大模型行業的有心人會發現,國内大模型的公司介紹裡,往往會強調:公司的七成到九成都是研發人員,而必要時,他們還會寫上清華創始團隊。

甚至在斯坦福自己釋出的《2024年人工智能指數報告》中,在讨論全球AI模型時,清華大學成為被提及為非西方機構中釋出基礎模型數量最多的學術機構之一。

由此,這次事件似乎發展成了“美國卧龍抄襲了中國鳳雛”的走向,引發熱議也就不足為奇了。

但從身份上細看,兩個團隊卻有明顯差距。

6月2日,斯坦福團隊其中一名成員Aksh Garg(加格)在社交平台X上正式道歉,并對本次事件公開道歉,并進行了解釋,他的推文稱之是以會如此,主要是他們“信錯了豬隊友”。

據其原文,抄襲團隊共有三位美國年輕人,Siddharth Sharma(夏爾馬)、Aksh Garg(加格)、Mustafa Aljadery(阿爾賈德裡)。

夏爾馬和加格是斯坦福大學大學生,主要負責Llama3-V模型的宣傳推廣。阿爾賈德裡是畢業于南加州大學的年輕創業者,主要負責Llama3-V模型的代碼開發。在Llama3-V模型開發過程中,阿爾賈德裡為了快速出名,抄襲了來自中國的MiniCPM-Llama3-V 2.5大模型。

我們翻了翻另一位成員夏爾馬以往的推文,如其所言,他确實是一位技術圈的KOL(意見領袖),給很多産品做過宣傳,不隻是Llama3-V。

是以事件的實質,是南加州大學背景的人抄襲了清華背景的大模型。

為什麼斯坦福大學生要抄襲中國大模型?

而面壁智能一邊,他的聯合創始人兼首席科學家是劉知遠。

據官網介紹,劉知遠在人工智能領域著名國際期刊和會議發表相關論文200餘篇,Google Scholar統計引用超過3.1萬次,曾獲教育部自然科學一等獎。

他的老師孫茂松的頭銜更長——歐洲人文和自然科學院外籍院士,國際計算語言學協會會士,中國人工智能學會會士,中國中文資訊學會會士,清華大學計算機科學與技術系長聘教授、博士生導師——同時也是桃李滿天下,包括劉知遠在内的三個學生同時都是國内知名AI創業公司的成員。

實際上,出自明星團隊的面壁MiniCPM-Llama3-V 2.5大模型在中國AI界頗有知名度,但大部分美國人并不知道。

界面報道中就提到,針對此事,谷歌DeepMind研究員Lucas Beyer在點評此事時說,有同樣表現的MiniCPM-Llama3-V 2.5得到了太少的關注,而這似乎僅僅因為這個模型不是來自一所“美國常青藤名校”。

是以,事件最終發展成了一場鬧劇——一些有斯坦福大學和加州大學背景的草台班子,利用中美之間的資訊差,抄襲了中國尖端研究團隊的作品。

當事人劉知遠,在斯坦福團隊道歉後的一天,在知乎感慨道:

人工智能的飛速發展離不開全球算法、資料與模型的開源共享,讓人們始終可以站在SOTA的肩上持續前進。我們這次開源的 MiniCPM-Llama3-V 2.5就用到了最新的Llama3作為語言模型基座。

而開源共享的基石是對開源協定的遵守,對其他貢獻者的信任,對前人成果的尊重和緻敬,Llama3-V團隊無疑嚴重破壞了這一點。他們在受到質疑後已在Huggingface删庫,該團隊三人中的兩位也隻是斯坦福大學大學生,未來還有很長的路,如果知錯能改,善莫大焉。

“你中有我,我中有你”

梳理完事件的來龍去脈,大家或許會感慨,事情的真相,似乎與人們看到新聞時,第一時間腦補的“中國清華系與美國斯坦福系的PK大賽”“中國的大模型崛起了”劇情走向有着很大的距離。

但情緒的落差也未必真有這麼大。

胡延平就認為,這件事之是以引起廣泛關注,主要在于“反向抄襲”這類情況比較少見。以往國内AI團隊基于國外開源大模型來開發的比較多,國外團隊使用國内大模型來開發的很少見。說明國産大模型雖然整體落後,但局部也有可圈可點之處。

比胡延平更有信心的專家則表達了不同的看法。

一位業内人士在看完這個事件後就對小巴感歎:“單就大語言模型來說,我一直相信中美差距會縮小,但美國會出新東西。而這個事情,确實可以說明中美在大語言模型上的差距正在縮小,技術層面上至少可以證明你中有我、我中有你。”

張孝榮也表示,斯坦福團隊抄襲中國團隊的行為确實可以反映出中國團隊在大模型應用開發領域,處于基本與美國相當的水準。

不過,此事件另一個值得留意的地方,是本次事件中作為“發現者”“曝光者”以及“提醒者”的有心網友。

如果沒有他們對于新大模型産品的嚴格審查,第一時間的質疑與提醒,這件事恐怕也很難從一個小衆的領域裡這麼快破圈而出。

“隻要眼睛多,bug容易捉。”這是1999年出版的《大教堂與集市》一書中的一句話,也是本書的核心奧義。

這個書名人文氣息濃郁的作品,被稱作網際網路開源運動的“聖經”。

作者Eric S·Raymond埃裡克·雷蒙在二十多年前,倡議用“集市”模式開放源代碼,鼓勵全球的軟體開發者一起參與開發軟體,進而取代過去大公司閉門造車的“大教堂”模式。

換言之,是成千上萬的臭皮匠能頂一個諸葛亮。

他的預言成了我們的現實,他的理念是我們習以為常的價值觀——如今人們所使用的所有軟體、網絡、作業系統無一不是開源下發展而來的産品。

開源貫穿網際網路發展的始終,也延綿到了人工智能時代,幸好,雷蒙的“眼睛多”定律,不止有助于發現bug,也有助于發現抄襲。

這次事件,在某種程度上也讓我們再次感受到了來自網際網路開放精神的魅力,從某種意義上來說,這個斯坦福團隊犯得最大的錯,在于他們利用了網際網路的開放性,卻忽略了開放性的另一個重要特點:全民監督。

事後,就有網友疑惑評論:“難道他們不怕被發現麼?”

也許,再開放的世界,也敵不過一個自我封閉的大腦和視野。

為什麼斯坦福大學生要抄襲中國大模型?

胡延平

FutureLabs未來實驗室首席專家

開源大模型實際上歡迎套殼,問題隻在于是否明示。僅就MiniCPM的情況來說,目前還很難上升到法律維權的高度。

為什麼斯坦福大學生要抄襲中國大模型?

張孝榮

深度科技研究院院長

在開源社群,抄襲現象确實存在,但并非普遍現象。行業内通常通過代碼審查、性能對比和社群監督來避免或發現抄襲。法律途徑維權是可行的,最惡劣的影響可能包括損害行業聲譽、阻礙創新和技術發展。

我認為,無論在哪個領域,原創性和誠信都是至關重要的。開源文化鼓勵分享和合作,但這并不意味着可以無視知識産權。我們應該繼續推動建立更加健全的知識産權保護機制,并鼓勵真正的創新和合作。同時,對于任何指控抄襲的行為,都應該進行公正和透明的調查。

為什麼斯坦福大學生要抄襲中國大模型?

匿名業内人士

在以前的技術浪潮中,包括網際網路和移動網際網路,美國人學習中國的不多。哪怕把對手都打趴下了,那也是更多在商業層面,和技術關系不大。而這個事情,确實可以說明中美在大語言模型上的差距正在縮小,技術層面上至少可以證明你中有我、我中有你,這是無法否認的。

為什麼斯坦福大學生要抄襲中國大模型?

張津京

BT财經創始人

各家現在對于通用大模型的教育訓練,沒有真正的資料,隻能通過網際網路的資料來進行,美國方面也會缺乏一些在中國才擁有的豐富資料源,是以無法實作一些深度的訓練。

這件事可能是有的團隊希望盡快拿到融資,是以用被中國資料訓練過的大模型進行套殼,進而牟利。這或許也反映出,美國的部分團隊在大模型的應用和研發上進入了死胡同,技術無法突破,隻能轉而在應用環節上動腦筋,而中國豐富的資料資源和大模型能力就是其重點參考的對象。

本篇作者 |和風月半 | 饒祖分

主編 |何夢飛| 圖源 |VCG

檢視原圖 467K

  • 為什麼斯坦福大學生要抄襲中國大模型?
  • 為什麼斯坦福大學生要抄襲中國大模型?
  • 為什麼斯坦福大學生要抄襲中國大模型?
  • 為什麼斯坦福大學生要抄襲中國大模型?
  • 為什麼斯坦福大學生要抄襲中國大模型?
  • 為什麼斯坦福大學生要抄襲中國大模型?
  • 為什麼斯坦福大學生要抄襲中國大模型?
  • 為什麼斯坦福大學生要抄襲中國大模型?

繼續閱讀