天天看點

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

注:拉到最後有視訊版哦~

論文位址:https://github.com/eladrich/pixel2style2pixel

這次給大家介紹一篇CVPR2021的論文,主要講的是基于StyleGAN的encoder網絡,能做inversion,圖像翻譯等任務

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

我會從這7個方面開始我的講解

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

背景

首先是背景,GAN在圖檔生成領域取得了很好的效果,尤其是現在最經典的StyleGAN,同時StyleGAN又有解耦合的latent space,有很多方法已經能通過操縱latent space來做語義編輯了,同時這種方法的生成器的fix的,不用訓判别器

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

動機

動機是inversion任務非常困難,想要一種又快又好的inversion方案很有挑戰,同時傳統的圖像翻譯任務一般一種任務需要一個網絡

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

研究目标

研究目标是能直接把真實圖檔嵌入到latent space中,不需要額外優化,同時該網絡能解決多個圖像翻譯任務

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

方法

下面來講方法,首先是loss,我覺得這個是一個挺弱但是挺有用的創新,就是在傳統的pix level的MSE和perception level的LPIPS上加了一個人臉識别的ID loss

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

然後是網絡這邊,想做的是圖檔到latent space的W+空間的映射,主要用到了金字塔FPN,擯棄了之前比如用resnet直接輸出W+空間的latent code的這種local方法,采用了延展backbone的global方法,分别從和StyleGAN原論文中對應的coarse,medium和fine三層去進行考慮

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

FPN中間的特征,将通過一個叫map2style的層,這個層的結構比較簡單,起到一個映射作用,然後再進入到仿射變換層

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

對于多模态的翻譯任務,提出的這種通用網絡也能hold住,對于某些開放問題,引入的随機量來進行style mixing的生成

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

實驗

先來看inversion的實驗,相比ALAE和IDinvert,pSp更加真實,并保留了更細節的屬性

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

然後是幾個消融實驗,首先看嵌入的空間,嵌入的W+空間明顯比W和naive W+要好,naive W+的意思是在encoder後面多加一層把512的特征向量擴充成18x512。另外,定量實驗如表所示,在Similarity,LPIPS和MSE上達到SOTA

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

第二個是人臉正面化的實驗,先來看訓練,主要在gt方面有修改,gt是否翻轉是随機的,這樣将迫使網絡學習一個中間位置,也就是正面的臉,和其他方法的對比圖見右邊,pSp較好的保持人臉原有屬性,同時成功将其轉為正臉

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

然後是條件圖檔生成,先來看從肖像畫中恢複出人臉,可以看到pSp相比pix2pixHD和FaceDrawing,具備更真實的觀感和更多樣的屬性變化,對側臉這種挑戰圖檔也能hold住

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

由于條件圖檔生成時候引入了随機量,每次生成的圖檔都會有點不同,但是總體的結構是和肖像畫一緻的

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

對于從分割圖檔中恢複出人臉的任務,pSp也是比之前經典的方法都要好,更加真實也更加多樣

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

對于超分任務,pSp這個網絡也能完成,從視覺上超過其他經典方法

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

對于局部編輯,在fix住随機量後也能較好實作

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

對于圖檔插值,pSp的結果也是非常平滑的

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

對于圖檔修補任務,pSp也能完成

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

結論就是,這個新的圖像翻譯架構運用了fix的stylegan生成器,完成了多個翻譯任務

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

不足就是對于StyleGAN訓練中沒有的圖檔,效果會不好,第二是強調了全局資訊,缺少了局部資訊的分析

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

繼續閱讀