注:拉到最後有視訊版哦~

論文位址：https://github.com/eladrich/pixel2style2pixel

這次給大家介紹一篇CVPR2021的論文，主要講的是基于StyleGAN的encoder網絡，能做inversion，圖像翻譯等任務

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

我會從這7個方面開始我的講解

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

背景

首先是背景，GAN在圖檔生成領域取得了很好的效果，尤其是現在最經典的StyleGAN，同時StyleGAN又有解耦合的latent space，有很多方法已經能通過操縱latent space來做語義編輯了，同時這種方法的生成器的fix的，不用訓判别器

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

動機

動機是inversion任務非常困難，想要一種又快又好的inversion方案很有挑戰，同時傳統的圖像翻譯任務一般一種任務需要一個網絡

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

研究目标

研究目标是能直接把真實圖檔嵌入到latent space中，不需要額外優化，同時該網絡能解決多個圖像翻譯任務

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

方法

下面來講方法，首先是loss，我覺得這個是一個挺弱但是挺有用的創新，就是在傳統的pix level的MSE和perception level的LPIPS上加了一個人臉識别的ID loss

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

然後是網絡這邊，想做的是圖檔到latent space的W+空間的映射，主要用到了金字塔FPN，擯棄了之前比如用resnet直接輸出W+空間的latent code的這種local方法，采用了延展backbone的global方法，分别從和StyleGAN原論文中對應的coarse，medium和fine三層去進行考慮

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

FPN中間的特征，将通過一個叫map2style的層，這個層的結構比較簡單，起到一個映射作用，然後再進入到仿射變換層

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

對于多模态的翻譯任務，提出的這種通用網絡也能hold住，對于某些開放問題，引入的随機量來進行style mixing的生成

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

實驗

先來看inversion的實驗，相比ALAE和IDinvert，pSp更加真實，并保留了更細節的屬性

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

然後是幾個消融實驗，首先看嵌入的空間，嵌入的W+空間明顯比W和naive W+要好，naive W+的意思是在encoder後面多加一層把512的特征向量擴充成18x512。另外，定量實驗如表所示，在Similarity，LPIPS和MSE上達到SOTA

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

第二個是人臉正面化的實驗，先來看訓練，主要在gt方面有修改，gt是否翻轉是随機的，這樣将迫使網絡學習一個中間位置，也就是正面的臉，和其他方法的對比圖見右邊，pSp較好的保持人臉原有屬性，同時成功将其轉為正臉

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

然後是條件圖檔生成，先來看從肖像畫中恢複出人臉，可以看到pSp相比pix2pixHD和FaceDrawing，具備更真實的觀感和更多樣的屬性變化，對側臉這種挑戰圖檔也能hold住

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

由于條件圖檔生成時候引入了随機量，每次生成的圖檔都會有點不同，但是總體的結構是和肖像畫一緻的

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

對于從分割圖檔中恢複出人臉的任務，pSp也是比之前經典的方法都要好，更加真實也更加多樣

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

對于超分任務，pSp這個網絡也能完成，從視覺上超過其他經典方法

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

對于局部編輯，在fix住随機量後也能較好實作

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

對于圖檔插值，pSp的結果也是非常平滑的

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

對于圖檔修補任務，pSp也能完成

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

結論就是，這個新的圖像翻譯架構運用了fix的stylegan生成器，完成了多個翻譯任務

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

不足就是對于StyleGAN訓練中沒有的圖檔，效果會不好，第二是強調了全局資訊，缺少了局部資訊的分析

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation背景動機研究目标方法實驗

背景

動機

研究目标

方法

實驗

繼續閱讀

Android-opencv之CVCamera

基于ORB特征點比對的對極幾何限制實作（源碼+講解）

使用hector構圖_如何使用均衡的構圖拍攝更清晰的照片

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

如何使用前景和背景建立更清晰的照片

在Ubuntu16.04上提取相鄰序列圖像之間的ORB的特征點，并用暴力方法找到比對點并連線一、什麼是ORB特征二、什麼是暴力比對三、實作代碼四、運作方法

Matlab中将二維灰階圖像三維顯示

車道線檢測

自監督｜「CoCLR」視訊自監督對比學習筆記

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡