谷歌搶先手釋出視訊生成類AIGC，網友：可以定制電影了

機器之心報道

編輯：杜偉、陳萍

AIGC 已經火了很長時間了，出現了文本生成圖像、文本生成視訊、圖像生成視訊等廣泛的應用場景，如今谷歌研究院的一項新研究可以讓我們根據輸入視訊生成其他視訊了！

我們知道，生成模型和多模态視覺語言模型的進展已經為具備前所未有生成真實性和多樣性的大型文本到圖像模型鋪平了道路。這些模型提供了新的創作過程，但僅限于合成新圖像而非編輯現有圖像。為了彌合這一差距，基于文本的直覺編輯方法可以對生成和真實圖像進行基于文本的編輯，并保留這些圖像的一些原始屬性。與圖像類似，近來文本到視訊模型也提出了很多，但使用這些模型進行視訊編輯的方法卻很少。

在文本指導的視訊編輯中，使用者提供輸入視訊以及描述生成視訊預期屬性的文本 prompt，如下圖 1 所示。目标有以下三個方面，1）對齊，編輯後的視訊應符合輸入文本 prompt；2）保真度，編輯後的視訊應保留原始視訊的内容，3）品質，編輯後的視訊應具備高品質。

可以看到，視訊編輯比圖像編輯更加具有挑戰性，它需要合成新的動作，而不僅僅是修改視覺外觀。此外還需要保持時間上的一緻性。是以，将 SDEdit、Prompt-to-Prompt 等圖像級别的編輯方法應用于視訊幀上不足以實作很好的效果。

在近日谷歌研究院等發表在 arXiv 的一篇論文中，研究者提出了一種新方法 Dreamix，它受到了 UniTune 的啟發，将文本條件視訊擴散模型（video diffusion model, VDM）應用于視訊編輯。

論文位址：https://arxiv.org/pdf/2302.01329.pdf
項目首頁：https://dreamix-video-editing.github.io/

文中方法的核心是通過以下兩種主要思路使文本條件 VDM 保持對輸入視訊的高保真度。其一不使用純噪聲作為模型初始化，而是使用原始視訊的降級版本，通過縮小尺寸和添加噪聲僅保留低時空資訊；其二通過微調原始視訊上的生成模型來進一步提升對原始視訊的保真度。

微調確定模型了解原始視訊的高分辨率屬性。對輸入視訊的簡單微調會促成相對較低的運動可編輯性，這是因為模型學會了更傾向于原始運動而不是遵循文本 prompt。研究者提出了一種新穎的混合微調方法，其中 VDM 也在輸入視訊各個幀的集合上進行微調，并丢棄了它們的時序。混合微調顯著提升了運動編輯的品質。

研究者進一步利用其視訊編輯模型提出了一個新的圖像動畫架構，如下圖 2 所示。該架構包含了幾個步驟，比如為圖像中的對象和背景設定動畫、建立動态相機運動等。他們通過幀複制或幾何圖像變換等簡單的圖像處理操作來實作，進而建立粗糙的視訊。接着使用 Dreamix 視訊編輯器對視訊進行編輯。此外研究者還使用其微調方法進行目标驅動的視訊生成，也即 Dreambooth 的視訊版本。

在實驗展示部分，研究者進行了廣泛的定性研究和人工評估，展示了他們方法的強大能力，具體可參考如下動圖。

對于谷歌這項研究，有人表示，3D + 運動和編輯工具可能是下一波論文的熱門主題。

還有人表示：大家可以很快在預算内制作自己的的電影了，你所需要的隻是一個綠幕以及這項技術：

方法概覽

本文提出了一種新的方法用于視訊編輯，具體而言：

通過逆向被破壞視訊進行文本引導視訊編輯

他們采用級聯 VDM（ Video Diffusion Models ），首先通過下采樣對輸入視訊就行一定的破壞，後加入噪聲。接下來是級聯擴散模型用于采樣過程，并以時間 t 為條件，将視訊更新到最終的時間 - 空間分辨率。

在對輸入視訊進行破壞處理的這一過程中，首先需要進行下采樣操作，以得到基礎模型（16 幀 24 × 40），然後加入方差為

谷歌搶先手釋出視訊生成類AIGC，網友：可以定制電影了

高斯噪聲，進而進一步破壞輸入視訊。

對于上述處理好的視訊，接下來的操作是使用級聯 VDM 将損壞掉的低分辨率視訊映射到與文本對齊的高分辨率視訊。這裡的核心思想是，給定一個嘈雜的、時間空間分辨率非常低的視訊，有許多完全可行的、高分辨率的視訊與之對應。本文中基礎模型從損壞的視訊開始，它與時間 s 的擴散過程具有相同的噪聲。然後該研究用 VDM 來逆向擴散過程直到時間 0。最後通過超分辨率模型對視訊進行更新。

混合視訊圖像微調

僅利用輸入視訊進行視訊擴散模型的微調會限制物體運動變化，相反，該研究使用了一種混合目标，即除了原始目标（左下角）之外，本文還對無序的幀集進行了微調，這是通過「masked temporal attention」來完成的，以防止時間注意力和卷積被微調（右下）。這種操作允許向靜态視訊中添加運動。

推理

在應用程式預處理的基礎上（Aapplication Dependent Pre-processing，下圖左），該研究支援多種應用，能将輸入内容轉換為統一的視訊格式。對于圖像到視訊，輸入圖像被複制并被變換，合成帶有一些相機運動的粗略視訊；對于目标驅動視訊生成，其輸入被省略，單獨進行微調以維持保真度。然後使用 Dreamix Video Editor（右）編輯這個粗糙的視訊：即前面講到的，首先通過下采樣破壞視訊，添加噪聲。然後應用微調的文本引導視訊擴散模型，将視訊更新到最終的時間空間分辨率。

實驗結果

視訊編輯：下圖中 Dreamix 将動作改為舞蹈，并且外觀由猴子變為熊，但視訊中主體的基本屬性沒有變：

Dreamix 還可以生成與輸入視訊時間資訊一緻的平滑視覺修改，如下圖會滑滑闆的小鹿：

圖像到視訊：當輸入是一張圖像時，Dreamix 可以使用其視訊先驗添加新的移動對象，如下圖中添加了在有霧的森林中出現一頭獨角獸，并放大。

小屋旁邊出現企鵝：

目标驅動視訊生成：Dreamix 還可以擷取顯示相同主題的圖像集合，并以該主題為運動對象生成新的視訊。如下圖是一條在葉子上蠕動的毛毛蟲：

除了定性分析外，該研究還進行了基線比較，主要是将 Dreamix 與 Imagen-Video、 Plug-and-Play (PnP) 兩種基線方法進行對比。下表為評分結果：

圖 8 展示了由 Dreamix 編輯的視訊和兩個基線示例：文本到視訊模型實作了低保真度的編輯，因為它不以原始視訊為條件。PnP 保留了場景，但不同幀之間缺乏一緻性；Dreamix 在這三個目标上都表現良好。

更多技術細節請參閱原論文。