天天看點

誰是中國版Sora?國産文生視訊大模型加速跑

作者:數字綠洲

“面對Sora帶來的挑戰,不妨讓子彈再飛一會兒”。兩個多月前,OpenAI又一記深水炸彈,以文生視訊大模型Sora引爆全球,當時談及國内外文生視訊大模型的差距,伽利略資本合夥人鄭譞做出了這樣一句評價。

兩個多月後,“預言”應驗。先是生數科技聯合清華大學釋出了視訊大模型Vidu,一度被外界形容為中國首個Sora級視訊大模型,近日,亦有媒體報道稱,智譜AI也正研發對标Sora的國産文生視訊模型,最快年内釋出。

随着企業競相入局,國内文生視訊大模型明顯進入加速階段。但就像鄭譞說的,Sora的出現并非技術上的突破,而在工程方面,國産大模型的差距其實并沒有多遠,“從本質上講,場景或許是比工程突破更值得思考的一件事”。

Sora之後

近日,有媒體報道稱,智譜AI正在研發對标Sora的高品質文生視訊模型,預計最快年内釋出。對此,北京商報記者聯系了智譜AI,對方表示該消息非官方信源消息,沒有其他資訊可以提供。

公開資料顯示,智譜AI由清華大學計算機系技術成果轉化而來,也是國内最早研發大模型的企業之一。今年1月,智譜AI釋出新一代基座大模型GLM-4,智譜AI CEO張鵬曾介紹稱,GLM-4的整體性能相比上一代大幅提升,逼近GPT-4。

在此之前,國産文生視訊大模型已經掀起過一波浪潮。4月27日的2024中關村論壇年會上,清華大學聯合生數科技正式釋出中國首個長時長、高一緻性、高動态性視訊大模型Vidu,引發熱議。

誰是中國版Sora?國産文生視訊大模型加速跑

據介紹,Vidu是自Sora釋出之後全球率先取得重大突破的視訊大模型,性能全面對标國際頂尖水準。

“Vidu是全棧自主創新的最新成果,在多個次元上實作了技術突破,包括可以模拟真實實體世界、具有想象力、可以了解多鏡頭語言而不再是簡單的鏡頭推拉、可以一鍵生成長達16秒的視訊、人物場景時間保持高度一緻性、可以了解中國元素”。當時,清華大學教授、生數科技首席科學家朱軍介紹稱。

對于外界最關心的,Vidu和Sora的對比,朱軍也在現場做出了展示,比如Sora在視訊生成過程中丢掉了“旋轉”這一關鍵詞,但Vidu則能較好地抓住這一内容,實作視訊視角的絲滑“旋轉”。

不過也有分析認為,Vidu的16秒與Sora的一分鐘仍存在算力和工程方面的巨大差距,對此,有業内人士對北京商報記者提到,Vidu的架構本身足夠支援更長時間的視訊生成,生數科技也介紹稱,Vidu正在加速疊代提升中。

據悉,Vidu原創的Diffusion與Transformer融合的架構U-ViT,提出于2022年9月,早于Sora采用的DiT架構,是全球首個Diffusion與Transformer融合的架構。

值得一提的是,智譜AI與生數科技均出自“清華一脈”,而“清華系”AI企業,也已成為這一輪大模型浪潮絕對的中堅力量,光年之外、月之暗面、百川智能、面壁智能等均有清華學子的影子。

智譜AI的“清華底色”可能最濃,比如常被外界提及的清華計算機系教授唐傑就是智譜AI的創始人之一。而在2021年,時任智源研究院學術副院長的唐傑,便作為“悟道”模型技術委員會主任,帶隊先後釋出了大陸首個超大規模智能模型“悟道1.0”和“悟道2.0”。

而今,這支源于清華的力量也在不斷“繁衍”。有媒體引用業内人士的分析稱,清華系大模型公司的格局是以智譜AI為中心,布局人工智能上下遊。今年3月,生數科技宣布完成新一輪數億元融資,智譜AI就是跟投者之一。

2024中關村輪年年會期間,智譜AI總裁王紹蘭還曾對媒體提到,生數科技在文生視訊模型方面有比較突出的能力,是智譜已經投資的十多家AI大模型産業相關創業公司之一,“目前許多企業都擁有行業領先的技術實力,這是一種鮮明的技術導向”。

産品化才是關鍵

事實上,自Sora釋出之後,國内文生視訊領域便已開始升溫。例如Sora釋出的2月,清華大學便公布了一項文生視訊專利。同月,中國首部文生視訊AI卡通片《千秋詩頌》播出。而在Vidu釋出的第二天,國内首個音視訊多媒體大模型萬興“天幕”正式公測。

據Gartner研究預測,到2030年,90%的數字内容都将是AI生成。預計2032年,全球AIGC市場規模将由2022年的108億美元增加至1181億美元。

經濟學家、新金融專家餘豐慧對北京商報記者分析稱,文生視訊的成功建構意味着AI模型能夠處理更高次元、更複雜的資料,并進行創造性表達,這表明模型正朝着了解和創造世界的不同層面演進,這與AGI所追求的認知和決策能力更加接近。

“Sora這樣的文生視訊技術一旦成熟,理論上有可能颠覆傳媒業、影視制作、遊戲開發、虛拟現實、廣告創意、教育等多個行業。它能夠在短時間内根據使用者需求自動生成高品質視訊内容,大大降低創作成本,提高生産效率”,餘豐慧補充稱。

在接受北京商報記者采訪時,鄭譞提到,文生視訊可以簡單類比成分鏡腳本,利用文本資訊生成關鍵幀,以幀與幀的畫面聯合形成連續視訊。在這個過程中,更多屬于工程上的創新,而非技術層面的颠覆性突破,這也意味着國内外大模型的差距不會太長,整體時間差距可以保持在半年之内。

也是是以,比起工程上的突破,鄭譞更關注的其實是應用場景。據他觀察,AI短片在行業内的“單子”還非常小,更像是實驗性質的嘗試,比之成熟的商業制作“大片”還有很大差距,“基本可以忽略不計”。

影響AI視訊商業化的因素,也可以從技術和市場兩方面了解。技術層面,鄭譞提到,還涉及大模型的穩定輸出,比如是否能夠保證鏡頭切換時主體的統一性。

即便這一工程問題得到解決,在真正的制作層面,礙于算力的巨大消耗以及訓練成本等因素,AI視訊的成本并不一定會比人工更低,這也進一步關系到廣泛應用的時候,存在着一個滲透率問題。

“我們目前主動接觸的文生視訊項目還比較少,主要還是覺得場景沒有那麼核心,也不一定能在這個低谷穿越周期”,鄭譞說。

更缺的是推理算力

企業競相入局文生視訊大模型,也引發出了另一個關鍵問題——算力。早在Sora釋出後不久,360集團創始人周鴻祎就曾公開提到,Sora的技術路線如果被開源,國内将能很快趕上,但在追趕Sora時,算力有可能成為門檻。

中信證券曾簡單估算,一個60幀的視訊(約6—8秒)需要約6萬個Patches,如果去噪步數是20的話,相當于要生成120萬個Tokens。同時考慮到擴散模型在實際使用時往往需要多次生成的特點,實際計算量會遠超120萬個Tokens。

天使投資人、資深人工智能專家郭濤對北京商報記者分析稱,大模型的訓練需要處理大量的資料和複雜的計算。如果沒有足夠的算力,訓練這樣的模型将非常困難。其次,目前全球的算力資源是有限的,而且大部分集中在一些大型科技公司手中,這就使得其他公司或者研究機構在擷取足夠的算力資源方面面臨挑戰。

為應對算力挑戰,餘豐慧提到,中國算力産業正處于快速發展階段,政府大力推動新基建,包括資料中心、5G網絡、雲計算平台等基礎架構的建設。多家上市公司如百度、騰訊、浪潮資訊、中科曙光等在AI算力領域均有布局,并取得顯著成果。

但人們在談大模型算力時,通常會更多地将目光聚焦在訓練算力,而鄭譞認為,真正的算力缺口其實不一定在訓練側,反而是在推理側。“現在之是以外界感受不到,主要原因在于還沒能出現真正的爆款應用,一旦這個應用出現了,推理算力缺口就會異常明顯”,鄭譞說。

不久前,月之暗面的Kimi智能助手走紅成為“小爆款”,因使用人數激增,Kimi App和小程式一度出現無法正常使用的情況。當時中信建投層釋出研報稱,随着Kimi使用者數持續提升,已經出現短暫算力支援不足的情況,考慮後續模型訓練和推理需求,預期算力需求會進一步提升,帶動算力需求落地。

“推理算力很可能會是創投圈的下一個機會”,鄭譞總結說。

北京商報記者 楊月涵

繼續閱讀