天天看點

牛津大學最新研究:給我一張照片,就能讓你開口講話

本文來自AI新媒體量子位(QbitAI)

牛津大學最新研究:給我一張照片,就能讓你開口講話

這句話你說過沒有?不承認?我給你看證據!

于是你就看到一段視訊,畫面中的你開口說了一段你不曾講過的話,口型自然、動作流暢。這是怎麼回事?

來自牛津大學工程科學系視覺幾何組的三位工程師,最近提出了一種生成聊天面部視訊的方法。這個方法需要兩個輸入資訊:

一張靜止的面部圖像

一個語音片段

可以得到的輸出,是口型與語音片段同步且比對的視訊。這個方法可以實時工作,并且在運作時,可以應用于未曾見過的面孔和未曾聽過的音頻,也就是說,不是訓練資料的情況下也能工作。

幹說不如來段視訊,一下就全明白了:

為了實作上述效果,牛津大學的團隊提出了一種編碼-解碼CNN模型,使用面部和音頻的聯合嵌入,來生成合成的面部聊天視訊幀。這個模型經過數十小時未标記視訊的訓練。

相關Paper在此:

<a>https://arxiv.org/pdf/1705.02966.pdf</a>

【完】

本文作者:若樸

原文釋出時間:2017-05-16