天天看點

【ECCV 2018】Facebook開發姿态轉換模型,隻需一張照片就能讓它跳舞(視訊)

DensePose 是 Facebook 研究員 Natalia Neverova、Iasonas Kokkinos 和法國 INRIA 的 Rıza Alp Guler 開發的一個令人驚歎的人體實時姿勢識别系統,它在 2D 圖像和人體3D 模型之間建立映射,最終實作密集人群的實時姿态識别。

具體來說,DensePose 利用深度學習将 2D RPG 圖像坐标映射到 3D 人體表面,把一個人分割成許多 UV 貼圖(UV 坐标),然後處理密集坐标,實作動态人物的精确定位和姿态估計。

【ECCV 2018】Facebook開發姿态轉換模型,隻需一張照片就能讓它跳舞(視訊)

DensePose 模型以及資料集已經開源,傳送門:

http://densepose.org/

最近,該團隊更進一步,釋出了基于 DensePose 的一個姿勢轉換系統:Dense Pose Transfer,僅根據一張輸入圖像和目标姿勢,創造出 “數字化身” 的動畫效果。

【ECCV 2018】Facebook開發姿态轉換模型,隻需一張照片就能讓它跳舞(視訊)

在這項工作中,研究者希望僅依賴基于表面(surface-based)的對象表示(object representations),類似于在圖形引擎中使用的對象表示,來獲得對圖像合成過程的更強把握。

研究者關注的重點是人體。模型建立在最近的 SMPL 模型和 DensePose 系統的基礎上,将這兩個系統結合在一起,進而能夠用完整的表面模型來說明一個人的圖像。

下面的視訊展示了更多生成結果:

【ECCV 2018】Facebook開發姿态轉換模型,隻需一張照片就能讓它跳舞(視訊)

具體而言,這項技術是通過 surface-based 的神經合成,渲染同一個人的不同姿勢,進而執行圖像生成。目标姿勢(target pose)是通過一個 “pose donor” 的圖像表示的,也就是指導圖像合成的另一個人。DensePose 系統用于将新的照片與公共表面坐标相關聯,并複制預測的外觀。

我們在 DeepFashion 和 MVC 資料集進行了實驗,結果表明我們可以獲得比最新技術更好的定量結果。

除了姿勢轉換的特定問題外,所提出的神經合成與 surface-based 的表示相結合的方法也有希望解決虛拟現實和增強現實的更廣泛問題:由于 surface-based 的表示,合成的過程更加透明,也更容易與實體世界連接配接。未來,姿勢轉換任務可能對資料集增強、訓練僞造檢測器等應用很有用。

Dense Pose Transfer

研究人員以一種高效的、自下而上的方式,将每個人體像素與其在人體參數化的坐标關聯起來,開發了圍繞 DensePose 估計系統進行姿勢轉換的方法。

我們以兩種互補的方式利用 DensePose 輸出,對應于預測子產品和變形子產品(warping module),如圖 1 所示。

【ECCV 2018】Facebook開發姿态轉換模型,隻需一張照片就能讓它跳舞(視訊)

圖 1:pose transfer pipeline 的概覽:給定輸入圖像和目标姿勢,使用 DensePose 來執行生成過程。

變形子產品使用 DensePose 表面對應和圖像修複(inpainting)來生成人物的新視圖,而預測子產品是一個通用的黑盒生成模型,以輸入和目标的 DensePose 輸出作為條件。

這兩個子產品具有互補的優點:預測子產品成功地利用密集條件輸出來為熟悉的姿勢生成合理的圖像;但它不能推廣的新的姿勢,或轉換紋理細節。

相比之下,變形子產品可以保留高品質的細節和紋理,允許在一個統一的、規範的坐标系中進行修複,并且可以自由地推廣到各種各樣的身體動作。但是,它是以身體為中心的,而不是以衣服為中心,是以沒有考慮頭發、衣服和配飾。

将這兩個子產品的輸出輸入到一個混合子產品(blending module)可以得到最好的結果。這個混合子產品通過在一個端到端可訓練的架構中使用重構、對抗和感覺損失的組合,來融合和完善它們的預測。

【ECCV 2018】Facebook開發姿态轉換模型,隻需一張照片就能讓它跳舞(視訊)

如圖 3 所示,在修複過程(inpainting process),可以觀察到一個均勻的表面,捕捉了皮膚和貼身衣服的外觀,但沒有考慮頭發、裙子或外衣,因為這些不适合 DensePose的表面模型。

實驗和結果

我們在 DeepFashion 資料集上進行實驗,該資料集包含 52712 個時裝模特圖像,13029 件不同姿勢的服裝。我們選擇了 12029 件衣服進行訓練,其餘 1000 件用于測試。

【ECCV 2018】Facebook開發姿态轉換模型,隻需一張照片就能讓它跳舞(視訊)

表1:根據結構相似度 (SSIM)、 Inception Score(IS)[41] 和 detection score(DS)名額,對DeepFashion 資料集的幾種 state-of-the-art 方法進行定量比較。

我們首先将我們的架構與最近一些基于關鍵點的圖像生成或多視圖合成方法進行比較。

表 1 顯示,我們的 pipeline 在結構逼真度(structural fidelity)方面有顯著優勢。在以IS 作為名額的感覺品質方面,我們模型的輸出生成具有更高的品質,或可與現有工作相媲美。

定性結果如圖 4 所示。

【ECCV 2018】Facebook開發姿态轉換模型,隻需一張照片就能讓它跳舞(視訊)

圖 4:與最先進的 Deformable GAN (DSC) 方法的定性比較。

密集人體姿态轉換應用

在這項工作中,我們介紹了一個利用密集人體姿态估計的 two-stream 姿态轉換架構。我們已經證明,密集姿勢估計對于資料驅動的人體姿勢估計而言是一種明顯優越的調節信号,并且通過 inpainting 的方法在自然的體表參數化過程中建立姿勢轉換。在未來的工作中,我們打算進一步探索這種方法在照片級真實圖像合成,以及處理更多類别方面的潛力。

作者:

【ECCV 2018】Facebook開發姿态轉換模型,隻需一張照片就能讓它跳舞(視訊)

● Rıza Alp Güler,INRIA, CentraleSupélec

● Natalia Neverova,Facebook AI Research

● Iasonas Kokkinos,Facebook AI Research

原文釋出時間為:2018-09-10

本文作者:肖琴

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”。

原文連結:

【ECCV 2018】Facebook開發姿态轉換模型,隻需一張照片就能讓它跳舞(視訊)

繼續閱讀