速來！潞晨Open-Sora羊毛可薅，10元輕松上手視訊生成

機器之心釋出

機器之心編輯部

近期，視訊生成模型賽道火熱，文生視訊，圖生視訊，花樣層出不窮。然而，盡管市場上模型衆多，大部分人還是因為沒有内測資格無法體驗，隻能望 “模” 興歎。前不久我們報道過潞晨科技的 Open-Sora 模型，作為全球首個開源類 Sora 模型，它不但在多種類型的視訊上表現優異，還主打低成本且人人可用。它好用嗎？怎麼用？一起來看看機器之心的測評。

最近 Open-Sora 全新開源的 1.2 版本，可以生成最長 16s 的 720p 高清視訊，官方視訊效果如下:

視訊加載中...

這個生成的效果确實驚豔，也難怪背景那麼多讀者想要上手體驗。

對比一衆閉源軟體，需要排長隊等候内測資格，這個完全開源的 Open-Sora 顯然更加易得。但是，在 Open-Sora 的官方 Github 上，密密麻麻全是技術和代碼，要想自己部署體驗，且不說模型對硬體要求高，配置環境時對使用者的代碼功底也是不小的挑戰。

那麼有沒有什麼辦法，讓 AI 小白使用者也能輕松使用 Open-Sora 呢？

先上結論：有，而且可以一鍵部署，啟動後還能零代碼控制視訊長度、畫幅、鏡頭等參數。

心動了嗎？那就讓我們一起看看，要如何實作 Open-Sora 的部署。文末有保姆級的詳細教程和使用位址，無需任何技術背景就能操作。

基于 Gradio 的可視化方案

有關 Open-Sora 的最新技術細節，我們曾經做過一篇深度報道。在報道中，我們重點讨論了 OpenSora 模型的核心架構和其創新的視訊壓縮網絡（VAE）。在那篇文章末尾，我們提到，潞晨 Open-Sora 團隊提供了可以自行一鍵部署的 Gradio 應用。那麼，這個 Gradio 應用具體是什麼樣呢？

Gradio 本身是一個 Python 包，專為機器學習模型的快速部署而設計。它允許開發者通過定義模型的輸入和輸出，自動生成一個網頁界面，進而簡化了模型的線上展示和互動過程。

我們仔細閱讀了 Open-Sora 的 GitHub 首頁，發現該應用将 Open-Sora 模型與 Gradio 有機地結合起來，提供了一個優雅簡潔的互動方案。

它采用圖像界面，使操作更簡單。在界面中，使用者可以自由修改生成視訊的時長、長寬比和分辨率等基礎參數，同時還能自主調節生成視訊的運動幅度、美學分數和更進階的鏡頭移動方式。它還支援調用 GPT-4 對 prompt 進行優化，是以，可以同時支援中文和英文文本輸入。

在部署好該應用後，使用者在使用 Open-Sora 模型時則不需要編寫任何代碼，隻需要輸入 prompt 和點選替換參數，即可嘗試不同的參數組合生成視訊。生成的視訊也将直接展示在 Gradio 界面中，可以直接在網頁端下載下傳，無需配備複雜的路徑。

圖檔來源：https://github.com/hpcaitech/Open-Sora/blob/main/assets/readme/gradio_basic.png

我們注意到，潞晨 Open-Sora 團隊已經在 Github 中提供了将模型與 Gradio 适配的腳本，并且也提供了部署的指令行代碼。然而，我們仍需要經曆複雜的環境配置，才能成功運作部署代碼。如果我們想完整體驗 Open-Sora 的功能，尤其是生成長時間高分辨率（比如 720P 16 秒）的視訊，更是需要性能好顯存大的顯示卡（官方使用的是 H800）。Gradio 方案似乎沒有提到如何解決這兩個問題。

這兩個問題乍看十分棘手，卻能被潞晨雲完美地解決，真正實作了無需技術輕松部署。如何上手？機器之心這裡有一份超簡單的教程。

超簡單的一鍵部署教程

在潞晨雲上部署 Open-Sora 有多簡單呢？

首先，潞晨雲提供多類型的顯示卡，其中，A800 和 H800 這樣的高端顯示卡也可以輕松租到。經我們測試，這種 80GB 顯存的卡，單卡就可以滿足 Open-Sora 項目的推理需求。

其次，潞晨雲為 Open-Sora 項目配備了專屬鏡像。這個鏡像就像可以拎包入住的精裝房，全套運作環境可以一鍵啟動，省去了複雜的環境配置環節。

最後，潞晨雲還有超優惠的價格和超人性化的服務。一張 A800 的卡每小時價格不到 10 元，初始化鏡像的時間全部不計費，雲主機随時關機停止計費。換句話說，不到 10 元 / 時，即可充分享受 Open-Sora 帶來的驚喜體驗！除此之外，我們還放了一個 100 元優惠券的擷取方式在文末，趕緊新增賬號薅上券，跟着我們的教程開整吧！

潞晨雲網址：https://cloud.luchentech.com/

首先，進入網址在潞晨雲上新增賬號。一進入首頁面，就可以直接看到算力市場的可租賃機器。領上優惠券，或者充值 10 元錢，就能跟着潞晨雲的使用者指南，開始建立雲主機。

第一步是選擇鏡像。一打開公共鏡像，點開第一個就是 OpenSora (1.2)，真是友善至極。

第二步是選擇計費方式。計費方式有兩種，潮汐計費和按量計費。我們試用後發現潮汐計費更省錢，在空閑時段 A800 的價格還能更低！

對于 Open-Sora 的推理，一張 A800 足夠了，我們選擇了 1 卡配置，并且允許了 SSH 連接配接、存儲持久化，還挂載了公開資料（包括模型權重）。這些功能都不額外收費，還能提供更多便利，超級良心。

選好後點選建立，雲主機啟動的時間非常短，幾十秒内機器就起來了。這段時間是不計費的，是以如果遇到比較大的鏡像等待時間較長時也不必擔心費用問題。

第三步，我們從雲主機頁面點選 JupyerLab, 進入網頁。一進去就給我們打開了一個終端。

我們輸入 ls，檢視雲主機的檔案，可以看到 Open-Sora 這個檔案夾就在初始路徑處。

由于我們使用的是 Open-Sora 專屬鏡像，我們無需額外安裝任何環境。最耗時的這一步被完美地解決了。

這時候，我們直接輸入運作 Gradio 的指令，就可以快速啟動 Gradio，真正實作了一鍵部署。

Bash

python gradio/app.py

速度非常快，隻要十多秒，Gradio 就跑起來了。

不過，我們發現，這個 gradio 是預設在伺服器的 http://0.0.0.0:7860 上跑，要想在自己本地的浏覽器用，得先把自己的 ssh 公共秘鑰加入到潞晨雲的機器中。這一步也很簡單，隻要進入下面這個檔案，粘貼本地機器的秘鑰進去就行。

接着，我們還需要寫上本地完成端口映射指令，我們可以照着這個截屏中的指令來寫，大家使用的時候需要替換成自己雲主機的具體位址和 port。

接着，打開對應網頁，很快就出現了可視化操作界面。

我們先随意輸入了一個英文提示，點選開始生成 (用了預設的 480p，速度會快一些)。

a river flowing through a rich landscape of trees and mountains (一條河流流經茂密的樹木和山脈)

很快生成就完成了，耗時約 40 秒。生成結果整體還不錯，有河有山有樹木，和指令符合。但是我們期待的是雄鷹從高處俯瞰的效果。

視訊連結：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650924168&idx=1&sn=311c6f5738d46764db045946da9cbcb5&chksm=84e420f6b393a9e0e2031f8ceb4f9fc405355c91adc3a25e558998d2dbf01415d925bc6cb524&token=1170670493&lang=zh_CN#rd

沒關系，調整了指令再來一次：

a bird's eye view of a river flowing through a rich landscape of trees and mountains (鳥瞰河流流經樹木和山脈的豐富景觀)

這次生成的内容果然帶上了鳥瞰效果。不錯，這個模型還是很聽話的。

如前文所說，gradio 界面上還有很多其他選項，比如調整分辨率、畫幅長寬比、視訊時長，甚至還能控制視訊的動态效果幅度等，可玩性非常強，我們測試時使用的是 480P 分辨率，而最高可支援 720P，大家可以逐個嘗試，看看不同選項搭配的效果。

想要進階？微調也能輕松上手

此外，繼續深挖 Open-Sora 的網頁，我們發現他們還提供了繼續微調模型的代碼指令。使用自己喜歡的類型的視訊微調模型的話，就能讓這個模型生成更符合我的審美要求的視訊了！

讓我們用潞晨雲的公開資料中提供的視訊資料來驗證一下。

由于環境全都是配置好的，我們隻需複制粘貼訓練指令。

torchrun --standalone --nproc_per_node 1 scripts/train.py configs/opensora-v1-2/train/stage1.py --data-path /root/commonData/Inter4K/meta/meta_inter4k_ready.csv

這邊輸出了一連串模型訓練的資訊。

訓練已經正常啟動了，居然隻要單卡就能訓！

（踩坑提示：在此之前我們遭遇了一次 OOM, 結果發現程式挂了以後顯存依舊被占用，然後發現是忘記關閉上一步 Gradio 的推理了 ORZ，是以大家用單卡訓的時候一定要記得關掉 Gradio，因為 Gradio 上面加載了模型一直在等待使用者輸入來進行推理）。

以下是我們訓練的時候 GPU 資源占用情況：

簡單算一筆賬，訓練一步大約耗時約 20 秒，根據 Open-Sora 提供的資料，訓練 70k 步（如下圖所示），那他們耗時大約在 16 天左右，和他們文檔中聲稱的 2 周左右相近（假設他們的所有機器各完成一個 step 的時間和我們這台機器相似）。

在這 70k 步中，第一階段占 30k 步，第二階段占 23k 步，那第三階段其實隻訓練了 17k 步。而這個第三階段，就是用高品質視訊進行微調，用來大幅度提升模型品質，也就是我們現在想要做的事情。

不過，從報告中看，他們的訓練使用了 12 台 8 卡機器，是以如果我們用潞晨雲平台訓練和第三階段相同的資料量，大約需要：

95 小時 * 8 卡 * 12 台 * 10 元 / 小時 = 91200 元

這個數字對于測評來說還是有點門檻的，但是對于打造一個專屬的文生視訊大模型來說也太劃算了。尤其是對于企業來說，基本不需要什麼前期準備工作，按照教程一步步走，就可以用不到十萬塊的價格甚至更少完成一次微調。真的很期待能看到更多 Open-Sora 在專業領域的強化版！

最後，放上我們前面提到的 100 元優惠券福利活動～盡管我們本次測評成本不到 10 元，但是羊毛該薅還得薅！

從潞晨雲官方資料看到，使用者在社交媒體和專業論壇（如知乎、小紅書、微網誌、CSDN 等）上分享使用體驗（帶 #潞晨雲或 @潞晨科技），有效分享一次可得 100 元代金券（有效期一周），換算成我們測評時生成的這種視訊，相當于五六百個～

最後，我們整理了相關的資源連結放在下面，友善大家快速上手。想要立刻嘗試的小夥伴們，點選閱讀原文即可一鍵傳送，開啟你的 AI 視訊旅程！

相關資源連結：

潞晨雲平台：https://cloud.luchentech.com/

Open-Sora 代碼庫：https://github.com/hpcaitech/Open-Sora/tree/main?tab=readme-ov-file#inference

Bilibili 教程：https://www.bilibili.com/video/BV1ow4m1e7PX/?vd_source=c6b752764cd36ff0e535a768e35d98d2

速來！潞晨Open-Sora羊毛可薅，10元輕松上手視訊生成

繼續閱讀

太尴尬！張蘭曬日本度假視訊！孫子孫女全程粘着保姆，躲避鏡頭拍

英格蘭驚險晉級，西班牙大勝黑馬，上咪咕視訊速覽歐洲杯最新賽況

深中通道持續火爆！這些行為好危險，再模仿視訊監控無死角哦~

一秒鐘要兩塊錢的視訊AI，為啥我還覺得挺值

四丫頭曬視訊心疼老公，孫海洋稱忙完會告知成績，孫卓頻繁上熱搜

Gen-3全面開放，一夜之間文生視訊王者寶座易主Runway|AI新榜

小S穿恨天高跳舞視訊流出，網友：大S離婚後，她不喝酒不抑郁了！

争場地起沖突大爺拿球拍猛抽男孩，看視訊确實是無恥，下手那個狠

“城東光影·盡在灞橋”攝影短視訊大賽邀您來拍！

看完李小璐女兒甜馨畢業的視訊，羨慕兩個字我已經說累了

選手成績公示（7）︳“農行杯·書香積石”2024年第一屆中華經典詩文全民誦讀網絡視訊大賽

視訊|李豫貴赴省職工醫院督辦第627号省人大代表建議

中聽 | 視訊平台套娃收費，薅惱了尊貴的VIP

《刀劍神域碎夢邊境》将于2024年10月3日上市！公開最新宣傳視訊及版本情報

這下完了！演員陳創出手了，模仿“哮天犬”網紅慌了，連夜删視訊

視訊｜2024年臨高縣“工會杯”保育師職業技能競賽隆重開幕