本文來自AI新媒體量子位(QbitAI)
這句話你說過沒有?不承認?我給你看證據!
于是你就看到一段視訊,畫面中的你開口說了一段你不曾講過的話,口型自然、動作流暢。這是怎麼回事?
來自牛津大學工程科學系視覺幾何組的三位工程師,最近提出了一種生成聊天面部視訊的方法。這個方法需要兩個輸入資訊:
一張靜止的面部圖像
一個語音片段
可以得到的輸出,是口型與語音片段同步且比對的視訊。這個方法可以實時工作,并且在運作時,可以應用于未曾見過的面孔和未曾聽過的音頻,也就是說,不是訓練資料的情況下也能工作。
幹說不如來段視訊,一下就全明白了:
為了實作上述效果,牛津大學的團隊提出了一種編碼-解碼CNN模型,使用面部和音頻的聯合嵌入,來生成合成的面部聊天視訊幀。這個模型經過數十小時未标記視訊的訓練。
相關Paper在此:
<a>https://arxiv.org/pdf/1705.02966.pdf</a>
【完】
本文作者:若樸
原文釋出時間:2017-05-16