注:拉到最後有視訊版哦~
論文位址:https://github.com/eladrich/pixel2style2pixel
這次給大家介紹一篇CVPR2021的論文,主要講的是基于StyleGAN的encoder網絡,能做inversion,圖像翻譯等任務
我會從這7個方面開始我的講解
背景
首先是背景,GAN在圖檔生成領域取得了很好的效果,尤其是現在最經典的StyleGAN,同時StyleGAN又有解耦合的latent space,有很多方法已經能通過操縱latent space來做語義編輯了,同時這種方法的生成器的fix的,不用訓判别器
動機
動機是inversion任務非常困難,想要一種又快又好的inversion方案很有挑戰,同時傳統的圖像翻譯任務一般一種任務需要一個網絡
研究目标
研究目标是能直接把真實圖檔嵌入到latent space中,不需要額外優化,同時該網絡能解決多個圖像翻譯任務
方法
下面來講方法,首先是loss,我覺得這個是一個挺弱但是挺有用的創新,就是在傳統的pix level的MSE和perception level的LPIPS上加了一個人臉識别的ID loss
然後是網絡這邊,想做的是圖檔到latent space的W+空間的映射,主要用到了金字塔FPN,擯棄了之前比如用resnet直接輸出W+空間的latent code的這種local方法,采用了延展backbone的global方法,分别從和StyleGAN原論文中對應的coarse,medium和fine三層去進行考慮
FPN中間的特征,将通過一個叫map2style的層,這個層的結構比較簡單,起到一個映射作用,然後再進入到仿射變換層
對于多模态的翻譯任務,提出的這種通用網絡也能hold住,對于某些開放問題,引入的随機量來進行style mixing的生成
實驗
先來看inversion的實驗,相比ALAE和IDinvert,pSp更加真實,并保留了更細節的屬性
然後是幾個消融實驗,首先看嵌入的空間,嵌入的W+空間明顯比W和naive W+要好,naive W+的意思是在encoder後面多加一層把512的特征向量擴充成18x512。另外,定量實驗如表所示,在Similarity,LPIPS和MSE上達到SOTA
第二個是人臉正面化的實驗,先來看訓練,主要在gt方面有修改,gt是否翻轉是随機的,這樣将迫使網絡學習一個中間位置,也就是正面的臉,和其他方法的對比圖見右邊,pSp較好的保持人臉原有屬性,同時成功将其轉為正臉
然後是條件圖檔生成,先來看從肖像畫中恢複出人臉,可以看到pSp相比pix2pixHD和FaceDrawing,具備更真實的觀感和更多樣的屬性變化,對側臉這種挑戰圖檔也能hold住
由于條件圖檔生成時候引入了随機量,每次生成的圖檔都會有點不同,但是總體的結構是和肖像畫一緻的
對于從分割圖檔中恢複出人臉的任務,pSp也是比之前經典的方法都要好,更加真實也更加多樣
對于超分任務,pSp這個網絡也能完成,從視覺上超過其他經典方法
對于局部編輯,在fix住随機量後也能較好實作
對于圖檔插值,pSp的結果也是非常平滑的
對于圖檔修補任務,pSp也能完成
結論就是,這個新的圖像翻譯架構運用了fix的stylegan生成器,完成了多個翻譯任務
不足就是對于StyleGAN訓練中沒有的圖檔,效果會不好,第二是強調了全局資訊,缺少了局部資訊的分析
[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation