天天看點

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

作者:機器之心Pro

機器之心釋出

機器之心編輯部

近期,視訊生成模型賽道火熱,文生視訊,圖生視訊,花樣層出不窮。然而,盡管市場上模型衆多,大部分人還是因為沒有内測資格無法體驗,隻能望 “模” 興歎。前不久我們報道過潞晨科技的 Open-Sora 模型,作為全球首個開源類 Sora 模型,它不但在多種類型的視訊上表現優異,還主打低成本且人人可用。它好用嗎?怎麼用?一起來看看機器之心的測評。

最近 Open-Sora 全新開源的 1.2 版本,可以生成最長 16s 的 720p 高清視訊,官方視訊效果如下:

視訊加載中...

這個生成的效果确實驚豔,也難怪背景那麼多讀者想要上手體驗。

對比一衆閉源軟體,需要排長隊等候内測資格,這個完全開源的 Open-Sora 顯然更加易得。但是,在 Open-Sora 的官方 Github 上,密密麻麻全是技術和代碼,要想自己部署體驗,且不說模型對硬體要求高,配置環境時對使用者的代碼功底也是不小的挑戰。

那麼有沒有什麼辦法,讓 AI 小白使用者也能輕松使用 Open-Sora 呢?

先上結論:有,而且可以一鍵部署,啟動後還能零代碼控制視訊長度、畫幅、鏡頭等參數。

心動了嗎?那就讓我們一起看看,要如何實作 Open-Sora 的部署。文末有保姆級的詳細教程和使用位址,無需任何技術背景就能操作。

基于 Gradio 的可視化方案

有關 Open-Sora 的最新技術細節,我們曾經做過一篇深度報道。在報道中,我們重點讨論了 OpenSora 模型的核心架構和其創新的視訊壓縮網絡(VAE)。在那篇文章末尾,我們提到,潞晨 Open-Sora 團隊提供了可以自行一鍵部署的 Gradio 應用。那麼,這個 Gradio 應用具體是什麼樣呢?

Gradio 本身是一個 Python 包,專為機器學習模型的快速部署而設計。它允許開發者通過定義模型的輸入和輸出,自動生成一個網頁界面,進而簡化了模型的線上展示和互動過程。

我們仔細閱讀了 Open-Sora 的 GitHub 首頁,發現該應用将 Open-Sora 模型與 Gradio 有機地結合起來,提供了一個優雅簡潔的互動方案。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

它采用圖像界面,使操作更簡單。在界面中,使用者可以自由修改生成視訊的時長、長寬比和分辨率等基礎參數,同時還能自主調節生成視訊的運動幅度、美學分數和更進階的鏡頭移動方式。它還支援調用 GPT-4 對 prompt 進行優化,是以,可以同時支援中文和英文文本輸入。

在部署好該應用後,使用者在使用 Open-Sora 模型時則不需要編寫任何代碼,隻需要輸入 prompt 和點選替換參數,即可嘗試不同的參數組合生成視訊。生成的視訊也将直接展示在 Gradio 界面中,可以直接在網頁端下載下傳,無需配備複雜的路徑。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

圖檔來源:https://github.com/hpcaitech/Open-Sora/blob/main/assets/readme/gradio_basic.png

我們注意到,潞晨 Open-Sora 團隊已經在 Github 中提供了将模型與 Gradio 适配的腳本,并且也提供了部署的指令行代碼。然而,我們仍需要經曆複雜的環境配置,才能成功運作部署代碼。如果我們想完整體驗 Open-Sora 的功能,尤其是生成長時間高分辨率(比如 720P 16 秒)的視訊,更是需要性能好顯存大的顯示卡(官方使用的是 H800)。Gradio 方案似乎沒有提到如何解決這兩個問題。

這兩個問題乍看十分棘手,卻能被潞晨雲完美地解決,真正實作了無需技術輕松部署。如何上手?機器之心這裡有一份超簡單的教程。

超簡單的一鍵部署教程

在潞晨雲上部署 Open-Sora 有多簡單呢?

首先,潞晨雲提供多類型的顯示卡,其中,A800 和 H800 這樣的高端顯示卡也可以輕松租到。經我們測試,這種 80GB 顯存的卡,單卡就可以滿足 Open-Sora 項目的推理需求。

其次,潞晨雲為 Open-Sora 項目配備了專屬鏡像。這個鏡像就像可以拎包入住的精裝房,全套運作環境可以一鍵啟動,省去了複雜的環境配置環節。

最後,潞晨雲還有超優惠的價格和超人性化的服務。一張 A800 的卡每小時價格不到 10 元,初始化鏡像的時間全部不計費,雲主機随時關機停止計費。換句話說,不到 10 元 / 時,即可充分享受 Open-Sora 帶來的驚喜體驗!除此之外,我們還放了一個 100 元優惠券的擷取方式在文末,趕緊新增賬號薅上券,跟着我們的教程開整吧!

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

潞晨雲網址:https://cloud.luchentech.com/

首先,進入網址在潞晨雲上新增賬號。一進入首頁面,就可以直接看到算力市場的可租賃機器。領上優惠券,或者充值 10 元錢,就能跟着潞晨雲的使用者指南,開始建立雲主機。

第一步是選擇鏡像。一打開公共鏡像,點開第一個就是 OpenSora (1.2),真是友善至極。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

第二步是選擇計費方式。計費方式有兩種,潮汐計費和按量計費。我們試用後發現潮汐計費更省錢,在空閑時段 A800 的價格還能更低!

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成
速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

對于 Open-Sora 的推理,一張 A800 足夠了,我們選擇了 1 卡配置,并且允許了 SSH 連接配接、存儲持久化,還挂載了公開資料(包括模型權重)。這些功能都不額外收費,還能提供更多便利,超級良心。

選好後點選建立,雲主機啟動的時間非常短,幾十秒内機器就起來了。這段時間是不計費的,是以如果遇到比較大的鏡像等待時間較長時也不必擔心費用問題。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

第三步,我們從雲主機頁面點選 JupyerLab, 進入網頁。一進去就給我們打開了一個終端。

我們輸入 ls,檢視雲主機的檔案,可以看到 Open-Sora 這個檔案夾就在初始路徑處。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

由于我們使用的是 Open-Sora 專屬鏡像,我們無需額外安裝任何環境。最耗時的這一步被完美地解決了。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

這時候,我們直接輸入運作 Gradio 的指令,就可以快速啟動 Gradio,真正實作了一鍵部署。

Bash

python gradio/app.py

速度非常快,隻要十多秒,Gradio 就跑起來了。

不過,我們發現,這個 gradio 是預設在伺服器的 http://0.0.0.0:7860 上跑,要想在自己本地的浏覽器用,得先把自己的 ssh 公共秘鑰加入到潞晨雲的機器中。這一步也很簡單,隻要進入下面這個檔案,粘貼本地機器的秘鑰進去就行。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

接着,我們還需要寫上本地完成端口映射指令,我們可以照着這個截屏中的指令來寫,大家使用的時候需要替換成自己雲主機的具體位址和 port。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

接着,打開對應網頁,很快就出現了可視化操作界面。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

我們先随意輸入了一個英文提示,點選開始生成 (用了預設的 480p,速度會快一些)。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

a river flowing through a rich landscape of trees and mountains (一條河流流經茂密的樹木和山脈)

很快生成就完成了,耗時約 40 秒。生成結果整體還不錯,有河有山有樹木,和指令符合。但是我們期待的是雄鷹從高處俯瞰的效果。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

視訊連結:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650924168&idx=1&sn=311c6f5738d46764db045946da9cbcb5&chksm=84e420f6b393a9e0e2031f8ceb4f9fc405355c91adc3a25e558998d2dbf01415d925bc6cb524&token=1170670493&lang=zh_CN#rd

沒關系,調整了指令再來一次:

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

a bird's eye view of a river flowing through a rich landscape of trees and mountains (鳥瞰河流流經樹木和山脈的豐富景觀)

這次生成的内容果然帶上了鳥瞰效果。不錯,這個模型還是很聽話的。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

視訊連結:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650924168&idx=1&sn=311c6f5738d46764db045946da9cbcb5&chksm=84e420f6b393a9e0e2031f8ceb4f9fc405355c91adc3a25e558998d2dbf01415d925bc6cb524&token=1170670493&lang=zh_CN#rd

如前文所說,gradio 界面上還有很多其他選項,比如調整分辨率、畫幅長寬比、視訊時長,甚至還能控制視訊的動态效果幅度等,可玩性非常強,我們測試時使用的是 480P 分辨率,而最高可支援 720P,大家可以逐個嘗試,看看不同選項搭配的效果。

想要進階?微調也能輕松上手

此外,繼續深挖 Open-Sora 的網頁,我們發現他們還提供了繼續微調模型的代碼指令。使用自己喜歡的類型的視訊微調模型的話,就能讓這個模型生成更符合我的審美要求的視訊了!

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

讓我們用潞晨雲的公開資料中提供的視訊資料來驗證一下。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

由于環境全都是配置好的,我們隻需複制粘貼訓練指令。

torchrun --standalone --nproc_per_node 1 scripts/train.py configs/opensora-v1-2/train/stage1.py --data-path /root/commonData/Inter4K/meta/meta_inter4k_ready.csv

這邊輸出了一連串模型訓練的資訊。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

訓練已經正常啟動了,居然隻要單卡就能訓!

( 踩坑提示:在此之前我們遭遇了一次 OOM, 結果發現程式挂了以後顯存依舊被占用,然後發現是忘記關閉上一步 Gradio 的推理了 ORZ,是以大家用單卡訓的時候一定要記得關掉 Gradio,因為 Gradio 上面加載了模型一直在等待使用者輸入來進行推理)。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

以下是我們訓練的時候 GPU 資源占用情況:

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

簡單算一筆賬,訓練一步大約耗時約 20 秒,根據 Open-Sora 提供的資料,訓練 70k 步(如下圖所示),那他們耗時大約在 16 天左右,和他們文檔中聲稱的 2 周左右相近(假設他們的所有機器各完成一個 step 的時間和我們這台機器相似)。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

在這 70k 步中,第一階段占 30k 步,第二階段占 23k 步,那第三階段其實隻訓練了 17k 步。而這個第三階段,就是用高品質視訊進行微調,用來大幅度提升模型品質,也就是我們現在想要做的事情。

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

不過,從報告中看,他們的訓練使用了 12 台 8 卡機器,是以如果我們用潞晨雲平台訓練和第三階段相同的資料量,大約需要:

95 小時 * 8 卡 * 12 台 * 10 元 / 小時 = 91200 元

這個數字對于測評來說還是有點門檻的,但是對于打造一個專屬的文生視訊大模型來說也太劃算了。尤其是對于企業來說,基本不需要什麼前期準備工作,按照教程一步步走,就可以用不到十萬塊的價格甚至更少完成一次微調。真的很期待能看到更多 Open-Sora 在專業領域的強化版!

最後,放上我們前面提到的 100 元優惠券福利活動~盡管我們本次測評成本不到 10 元,但是羊毛該薅還得薅!

從潞晨雲官方資料看到,使用者在社交媒體和專業論壇(如知乎、小紅書、微網誌、CSDN 等)上分享使用體驗(帶 #潞晨雲或 @潞晨科技),有效分享一次可得 100 元代金券(有效期一周),換算成我們測評時生成的這種視訊,相當于五六百個~

速來!潞晨Open-Sora羊毛可薅,10元輕松上手視訊生成

最後,我們整理了相關的資源連結放在下面,友善大家快速上手。想要立刻嘗試的小夥伴們,點選閱讀原文即可一鍵傳送,開啟你的 AI 視訊旅程!

相關資源連結:

潞晨雲平台:https://cloud.luchentech.com/

Open-Sora 代碼庫:https://github.com/hpcaitech/Open-Sora/tree/main?tab=readme-ov-file#inference

Bilibili 教程:https://www.bilibili.com/video/BV1ow4m1e7PX/?vd_source=c6b752764cd36ff0e535a768e35d98d2

繼續閱讀