牛津大學最新研究：給我一張照片，就能讓你開口講話

2018-01-07 23:50:00

本文來自AI新媒體量子位（QbitAI）

這句話你說過沒有？不承認？我給你看證據！

于是你就看到一段視訊，畫面中的你開口說了一段你不曾講過的話，口型自然、動作流暢。這是怎麼回事？

來自牛津大學工程科學系視覺幾何組的三位工程師，最近提出了一種生成聊天面部視訊的方法。這個方法需要兩個輸入資訊：

一張靜止的面部圖像

一個語音片段

可以得到的輸出，是口型與語音片段同步且比對的視訊。這個方法可以實時工作，并且在運作時，可以應用于未曾見過的面孔和未曾聽過的音頻，也就是說，不是訓練資料的情況下也能工作。

幹說不如來段視訊，一下就全明白了：

為了實作上述效果，牛津大學的團隊提出了一種編碼-解碼CNN模型，使用面部和音頻的聯合嵌入，來生成合成的面部聊天視訊幀。這個模型經過數十小時未标記視訊的訓練。

相關Paper在此：

<a>https://arxiv.org/pdf/1705.02966.pdf</a>

【完】

本文作者：若樸

原文釋出時間：2017-05-16

繼續閱讀