Meta 今天釋出了 MovieGen 系列媒體基礎AI模型,該模型可根據文本提示生成帶聲音的逼真視訊。 MovieGen 系列包括兩個主要模型: MovieGen Video 和 MovieGen Audio。
MovieGen Video 是一個具有 300 億個參數的變換器模型,可根據單個文本提示生成高品質、高清晰度的圖像和視訊,生成的視訊可長達 16 秒,每秒 16 幀。
MovieGen Audio 是一個 130 億參數的變壓器模型,可以接收視訊輸入和可選的文本提示,并生成與輸入視訊同步的長達 45 秒的高保真音頻。 這種新的音頻模型可以生成環境音效、器樂背景音樂和 Foley 音效。 Meta 聲稱它在音頻品質、視訊與音頻對齊和文本與音頻對齊方面都能提供最先進的效果。
這些模型不僅僅用于建立全新的視訊。 它們可用于使用簡單的文本提示編輯現有視訊。 MovieGen 還允許使用者進行本地化編輯,如添加、删除或替換元素,以及進行背景或樣式更改等全局更改。 例如,如果您有一段某人扔球的視訊,并配有簡單的文字提示,您可以将視訊改為某人扔西瓜,同時保留原始内容的其餘部分。
MovieGen 模型将允許使用者建立個性化視訊。 通過使用人物圖像和文字提示,這些模型可以生成保留人物特征和動作的個性化視訊。 Meta 聲稱,這些模型在視訊中的人物保護和自然運動方面提供了最先進的成果。
Meta 聲稱,與其他視訊生成模型(包括 OpenAI Sora 和 Runway Gen-3)相比,這些模型能生成更好的視訊。 Meta 目前正與創意專業人士合作,在公開釋出之前進一步改進該模型。
了解更多/Meta