上線一個月,Vidu 再度迎來重大更新!
4月底,由生數科技和清華大學聯合研發的國内首個純自研原創視訊大模型 Vidu 面向全球釋出,7月底正式上線,全面開放使用,憑借在快速推理、精确語義了解、高動态性和極緻動漫風格等方面的優勢,Vidu 産品表現位列全球視訊大模型的“第一梯隊”。
僅過去一個多月的時間,Vidu 迎來重大功能更新。9月11日生數科技舉辦媒體開放日活動,期間 Vidu 全球首發「主體參照」(Subject Consistency)功能,該功能能夠實作對任意主體的一緻性生成,讓視訊生成更加穩定、可控。目前該功能面向使用者免費開放,注冊即可體驗!(體驗位址: www.vidu.studio)
一、全球首個!僅需一張圖檔實作主體可控
所謂“主體參照”,就是允許使用者上傳任意主體的一張圖檔,Vidu 就能夠鎖定該主體的形象,通過描述詞任意切換場景,輸出主體一緻的視訊。
該功能不局限于單一對象,而是面向“任意主體”,無論是人物、動物、商品,還是動漫角色、虛構主體,都能確定其在視訊生成中的一緻性和可控性,這是視訊生成領域的一大創新。Vidu 也是全球首個支援該能力的視訊大模型。
比如進行人物角色的“主體參照”,無論是真實人物還是虛構角色,Vidu 都能保持其在不同環境中、不同鏡頭下的形象連貫一緻。
視訊加載中...
比如動物,Vidu 可以實作其在不同環境下、大幅運動狀态中細節特征保持一緻。
視訊加載中...
比如商品,商品的外觀和細節在不同場景中保持高度一緻。
視訊加載中...
上傳的主體也不限于寫實風格,比如針對動漫角色或者虛構的主體等,Vidu 也可以保持其高度一緻。
視訊加載中...
視訊加載中...
視訊加載中...
在視訊大模型領域,盡管已有如“圖生視訊”和“角色一緻性”等能力,但 Vidu 的“主體參照”功能在一緻性方面實作了質的飛躍。具體對比看:
- 圖生視訊(Image to Video):基于首幀畫面的連續生成,無法直接輸出目标場景,限制了視訊内容的多樣性和場景的自由度;
- 角色一緻性(Character to Video):隻限于人物面部特征的一緻性,難以保證人物整體形象的穩定;
- 主體參照(Subject Consistency):不局限于人物,面向任意主體,其次在人物主體下,可選擇保持面部一緻,也可選擇保持人物整體形象的高度一緻,通過輸入文字描述靈活輸出目标場景;
我們以具體案例來看,輸入一張林黛玉的角色照,輸入同樣的“在現代咖啡廳喝咖啡”的描述,能直覺看到,在Vidu “主體參照”功能下,林黛玉的形象在現代場景中得到了完美保留,場景輸出也自然而真實。
原圖
圖生視訊
視訊加載中...
角色一緻性
視訊加載中...
主體參照
視訊加載中...
二、改變視訊創作“遊戲規則”
視訊大模型領域的競争日益激烈,盡管衆多模型層出不窮,但它們普遍存在着一個核心問題——可控性不足,或者叫一緻性的不足。
在實際的視訊創作中,視訊内容往往圍繞特定的對象展開,可以是角色或特定物體,這些對象在視訊中的形象需要保持連續一緻。然而現有的視訊模型往往難以實作這一點,常常是主體在生成過程中容易崩壞。
尤其在涉及複雜動作和互動的情況下,保持主體的一緻性更是一項挑戰。此外,視訊模型的輸出結果具有較大的随機性,對于鏡頭運用、光影效果等細節的控制也不夠精細。是以現階段的視訊模型雖然在畫面表現力、實體規律、想象力等方面實作了一定程度的突破,但可控性的不足限制了它們在創作連貫、完整視訊内容方面的應用。目前,大多數的 AI 視訊内容還是基于獨立視訊素材的拼接,情節的連貫性不足。
為了解決這一問題,業界曾嘗試采用“先AI生圖、再圖生視訊”的方法,通過AI繪圖工具如 Midjourney 生成分鏡頭畫面,先在圖檔層面保持主體一緻,然後再将這些畫面轉化為視訊片段并進行剪輯合成。
但問題在于,AI 繪圖的一緻性并不完美,往往需要通過反複修改和局部重繪來解決。更重要的是,實際的視訊制作過程中涉及衆多場景和鏡頭,這種方法在處理多組分鏡頭的場景時,生圖的工作量巨大,能占到全流程的一半以上,且最終的視訊内容也會因為過分依賴分鏡頭畫面而缺乏創造性和靈活性。
Vidu 的“主體參照”功能徹底改變了這一局面。它摒棄了傳統的分鏡頭畫面生成步驟,通過“上傳主體圖+輸入場景描述詞”的方式,直接生成視訊素材。這一創新方法不僅大幅減少了工作量,還打破了分鏡頭畫面對視訊内容的限制,讓創作者能夠基于文本描述,發揮更大的想象力,創造出畫面豐富、靈活多變的視訊内容。這一突破将為視訊創作帶來了前所未有的自由度和創新空間。
(圖為AI視訊制作流程的重塑)
三、加速故事類、廣告類視訊創作
這一功能也确實得到了衆多一線創作者的“高度評價”。
- 僅需三張定妝照,完成短片創作
“主體參照”功能通過鎖定角色或物體的形象,一方面讓故事情節更具連貫性,另一方面讓創作者能夠更自由地探索故事的深度和廣度。
光馳矩陣的發起人、青年導演李甯正在打造中國首部AIGC院線電影《玄宇》。他利用 Vidu 預創作了一段男主的視訊片段,其中所有人物畫面僅通過男主近景、中景、遠景三張定妝照生成。李甯在創作分享中提到,之前的AI電影創作過程,采用傳統的文生圖、圖生視訊流程,在分鏡的連貫上很難掌控,人物的整體造型很難保持一緻,前期需要耗費大量的精力去調試圖檔,同時畫面還容易産生鏡頭光影失控、圖像模糊甚至變形等一系列問題,且随着視訊篇幅的增加,這些問題被進一步放大。Vidu “主體參照”功能讓人物的整體一緻性顯著提升,不再需要前期生成大量的圖檔,人物運動和畫面過渡也更加自然,極大助力了長篇叙事的創作。
中央廣播電視總台導演、AIGC藝術家石宇翔(森海熒光)創作了一條動畫短片《夏日的禮物》,在分享創作流程中他表示,與基礎的圖生視訊功能相比,“主體參照”功能擺脫了靜态圖檔的束縛,生成的畫面更具感染力和自由度,讓創作的連貫性大大提升。同時幫助他節約7成左右的生圖工作量,顯著提效,讓他能夠将更多精力放在故事内容的打磨上,而非生成圖檔素材上。另外他表示,再疊加上 Vidu 的複雜動作處理能力和多元素的了解能力,他覺得 Vidu 就像是一位真人助理“動畫師”在輔助創作。
- 基于一張商品圖,僅六個小時完成一支廣告片
“主體參照”功能在商業廣告片方向展現了強大的潛力。廣告片的一大關鍵在于要保證多個鏡頭、不同場景下品牌物形象的一緻性。Vidu “主體參照”功能能夠很好的實作,例如,在下面的跑步鞋廣告案例中,僅通過一張商品圖,便完成了所有視訊畫面的生成,無論是不同角度、背景,還是動态表現,跑步鞋的形象在整個視訊中都保持了高度一緻。
視訊加載中...
生數科技官方介紹到,該視訊僅一位人員花費6個小時完成,包含前期策劃、素材生成,後期剪輯,其中30段 AI 視訊素材的生成僅花費3個小時,整個流程僅參照一張商品圖。傳統廣告片制作高度依賴線下實拍和後期制作,時間周期長、成本投入大,但現在通過 Vidu 能夠極大地節省廣告制作的成本,整個産出流程更加高效,品牌方對新素材的開發也能更加靈活。
與功能釋出同步,生數科技也推出了合作夥伴計劃,邀請廣告、影視、動漫、遊戲等行業的機構加入,共同探索新的視訊創作模式,在内容共創、技術支援、市場拓展等方面展開合作。首批合作夥伴包括開心麻花、貓眼娛樂、巨人網絡、美克家居、融創文化、河南省非物質文化遺産保護和智慧中心、李可柒畫院等知名企業與機構。
四、“主體參照”是 AI 完整叙事的開端
作為國内首個純自研的視訊大模型,Vidu 自釋出以來便在海外内受到廣泛關注。在7月底正式上線後,憑借在動态性、語義了解、動漫風格、快速推理等方面的亮點,Vidu 産品表現位列全球視訊大模型的“第一梯隊”,并在TikTok 等海外社交媒體平台上掀起多種 AI 視訊主題玩法的熱潮,如“跨越時空的擁抱”等。根據第三方的資料顯示,Vidu 上線首月便位列全球網頁類産品使用者通路量增速第一。
面向專業創作領域,Vidu 也牽手海内外多位 AI 藝術家,探索 AI 賦能下的全新創作模式。比如與北京電影節 AIGC 短片單元最佳影片得主、Ainimate Lab 合作打造的動畫短片《一路向南》,畫面品質接近傳統動畫制作标準,但成本僅為傳統流程的 1/40。Ainimate Lab AI 負責人陳劉芳表示,該短片的創作團隊僅由三人構成:一名導演、一名故事版藝術家和一名 AIGC 技術應用專家,制作周期約為 1 周,而傳統流程需要 20 人,包含導演、美術、模組化、燈光、渲染等不同“工種”,周期在一個月左右。由此可見,Vidu 大大縮短了制作周期并顯著降低了成本。
唐家渝表示, "主體參照"這一全新功能的上線,代表着 AI 完整叙事的開端,AI 視訊創作也将邁向更高效、更靈活的階段。無論是制作短視訊、動畫作品還是廣告片,在叙事的藝術中,一個完整的叙事體系是“主體一緻、場景一緻、風格一緻”等要素的有機結合。
是以,視訊模型要達到叙事的完整性,就必須在這些核心元素上實作全面可控。“主體參照”功能是 Vidu 在一緻性方面邁出的重要一步,但這僅僅是開始。未來,Vidu 将繼續探索如何精确控制多主體互動、風格統一、多變場景穩定切換等複雜元素,以滿足更高層次的叙事需求。
從更長遠的視角來看,一旦實作了全面的可控性,視訊創作行業将經曆一場颠覆性的變革。屆時,角色、場景、風格,甚至鏡頭運用、光影效果等元素,都将轉化為可靈活調整的參數。使用者隻需要動動手指、調調參,就可以完成一部影像作品的創作,而每一個作品的背後,也将是使用者基于AI建構出的獨特世界觀和自我表達。