在此前閉幕的世界人工智能大會(WAIC)上,快手推出的視訊大模型可靈再次成為焦點。作為全球首個使用者可用的真實影像級視訊生成大模型,可靈一經問世便引發強烈反響。
自釋出以來,可靈已吸引超過50萬人申請,開放給30萬使用者使用,生成超700萬條短視訊。
可靈的高品質生成效果和易用性引起了全球關注,外國網友都投來了羨慕的目光。
昨天,我可靈的試用申請終于通過了。我将結合快手此次的更新、釋出,與我的親身體驗分享給大家。
可靈網頁端上線,新功能全面更新
在大會上,可靈推出了圖生視訊和視訊續寫功能。
圖生視訊功能讓你可以用一張圖直接生成視訊,一緻性超高。
視訊續寫功能可将生成的視訊每次延長5秒,最長可達三分鐘。
可靈網頁端也同步上線,其生成的視訊不僅品質高,還符合實體規律,連大幅度運動也能準确刻畫。
新的Web端上線功能包括:
1. 文生視訊:畫質更新,單次可生成10秒視訊。
2. 圖生視訊:支援自定義首尾幀,提升畫質。首尾幀控制功能隻需上傳首尾兩張圖檔,可靈就能自動“腦補”中間的運動變化過程。
3. 運鏡控制:提供豐富的鏡頭控制選項,預設多種大師級鏡頭模式,不再需要寫鏡頭提示詞。
快手視覺生成與互動中心負責人萬鵬飛介紹了可靈的技術方案,在運動生成、實體規律、視訊畫質、指令響應等七個方向實作了進一步更新。
除了模型更新和功能更新,快手還釋出了可靈Web版本,使用者可以在PC上更友善地創作和管理作品。
新功能堅持了快手的“不畫餅”原則,釋出即上線,目前限時免費體驗。
體驗指南與效果
可靈Web版操作非常簡單,進入創作頁面後,文生視訊模式下輸入提示詞;
圖生視訊模式下上傳圖檔并輸入提示詞。
設定好參考比例、生成時長、畫面比例、運鏡控制等參數後,點選“立即生成”按鈕即可生成。等待5分鐘左右即可。
生成完的視訊可以延長、下載下傳、收藏等。
生成效果真的是驚豔到了我。
先是文生視訊的效果,鏡頭移動非常快,畫面連續沒有模糊。
再看看圖生視訊效果,其他畫風也能很好地識别。
最後是首尾幀功能,兩張差别較大的圖檔竟然被可靈就這麼簡單地串聯起來了。
看到這裡,和我之前用的其他AI視訊應用比,我願稱可靈為最強AI視訊應用。
文生圖大模型——可圖
此次Web界面整合了圖檔生成功能,背後是快手自研的文生圖大模型——可圖。
可圖與可靈深度關聯,生成圖檔後可一鍵轉到圖生視訊,圖生視訊中也可直接選擇可圖繪制的圖檔。
可圖與其他圖像生成模型相比,品質更高、語義跟随能力更強,支援的場景更加豐富。内部盲測中,可圖超越了MidJourney、Stable Diffusion等模型,名列第一。
在北京智源研究院的第三方測試中,可圖以75.23分排名第二,僅次于76.66分的DALL·E-3。此外,可圖還具備強大的“寫字”能力,能在圖像中嵌入真實的文本效果。
可圖在今年5月31日向公衆開放,而在WAIC大會上,蓋坤宣布可圖大模型正式開源。推理代碼和Checkpoints已在GitHub公布,未來還将陸續上線LoRA、ControlNet和ComfyUI工作流。
快手大模型家族全員亮相
除了可靈和可圖,快手的大模型矩陣還包括語言大模型、推薦大模型等。
比如推薦大模型基于SIM(Search Interest Model)模型打造,擁有10萬億參數量,處理每個使用者的行為序列長度可達百萬。
快手的語言模型“快意”在内部盲測中,中文能力已達GPT-4水準。快意從13B版本發展到現在的175B版本和多模态版本,已廣泛應用于素材創作、AI互動和内容生産等場景。
基于這些大模型能力,快手還搭建了數字人全流程AIGC服務,包括數字人腳本創意生成、數字人渲染生成、實時互動和智能客服問答等。
在C端,快手APP評論區上線了智能體“AI小快”,作為使用者的智能互動小助手。AI小快基于多模态大模型的了解能力,可回答各種問題,還能在評論區畫圖、畫表情包,并實作情緒互動。
快手堅持自研,擁抱開源
快手在戰略架構中,堅持全棧自研和技術創新至關重要。從底層晶片算力、網絡架構到頂層應用,快手持續投入基礎研究和前沿探索,展現出其自研技術的強大實力。
快手副總裁張迪表示,自主研發長期帶來的“技術雪球”效應和巨大成本優勢是公司戰略的重要部分。快手擁有豐富的AI應用場景,給予大模型技術大量落地機會,是國内大模型應用探索最深入的公司之一。
此外,快手積極推動生态發展,如可圖的開源。快手與多家高校和科研機構合作,設立專項基金支援學術研究創新。例如,快手與中國計算機學會(CCF)成立“CCF-快手大模型探索者基金”,支援“大語言模型”和“視覺了解與生成”等五大核心領域研究項目。
如果你覺得這篇文章對你有所幫助,歡迎點贊、收藏以及轉發分享。同時,請關注我,以擷取更多關于人工智能的最新資訊和見解!
官網:
參考: