注:拉到最后有视频版哦~
论文地址:https://github.com/eladrich/pixel2style2pixel
这次给大家介绍一篇CVPR2021的论文,主要讲的是基于StyleGAN的encoder网络,能做inversion,图像翻译等任务
我会从这7个方面开始我的讲解
背景
首先是背景,GAN在图片生成领域取得了很好的效果,尤其是现在最经典的StyleGAN,同时StyleGAN又有解耦合的latent space,有很多方法已经能通过操纵latent space来做语义编辑了,同时这种方法的生成器的fix的,不用训判别器
动机
动机是inversion任务非常困难,想要一种又快又好的inversion方案很有挑战,同时传统的图像翻译任务一般一种任务需要一个网络
研究目标
研究目标是能直接把真实图片嵌入到latent space中,不需要额外优化,同时该网络能解决多个图像翻译任务
方法
下面来讲方法,首先是loss,我觉得这个是一个挺弱但是挺有用的创新,就是在传统的pix level的MSE和perception level的LPIPS上加了一个人脸识别的ID loss
然后是网络这边,想做的是图片到latent space的W+空间的映射,主要用到了金字塔FPN,摈弃了之前比如用resnet直接输出W+空间的latent code的这种local方法,采用了延展backbone的global方法,分别从和StyleGAN原论文中对应的coarse,medium和fine三层去进行考虑
FPN中间的特征,将通过一个叫map2style的层,这个层的结构比较简单,起到一个映射作用,然后再进入到仿射变换层
对于多模态的翻译任务,提出的这种通用网络也能hold住,对于某些开放问题,引入的随机量来进行style mixing的生成
实验
先来看inversion的实验,相比ALAE和IDinvert,pSp更加真实,并保留了更细节的属性
然后是几个消融实验,首先看嵌入的空间,嵌入的W+空间明显比W和naive W+要好,naive W+的意思是在encoder后面多加一层把512的特征向量扩展成18x512。另外,定量实验如表所示,在Similarity,LPIPS和MSE上达到SOTA
第二个是人脸正面化的实验,先来看训练,主要在gt方面有修改,gt是否翻转是随机的,这样将迫使网络学习一个中间位置,也就是正面的脸,和其他方法的对比图见右边,pSp较好的保持人脸原有属性,同时成功将其转为正脸
然后是条件图片生成,先来看从肖像画中恢复出人脸,可以看到pSp相比pix2pixHD和FaceDrawing,具备更真实的观感和更多样的属性变化,对侧脸这种挑战图片也能hold住
由于条件图片生成时候引入了随机量,每次生成的图片都会有点不同,但是总体的结构是和肖像画一致的
对于从分割图片中恢复出人脸的任务,pSp也是比之前经典的方法都要好,更加真实也更加多样
对于超分任务,pSp这个网络也能完成,从视觉上超过其他经典方法
对于局部编辑,在fix住随机量后也能较好实现
对于图片插值,pSp的结果也是非常平滑的
对于图片修补任务,pSp也能完成
结论就是,这个新的图像翻译框架运用了fix的stylegan生成器,完成了多个翻译任务
不足就是对于StyleGAN训练中没有的图片,效果会不好,第二是强调了全局信息,缺少了局部信息的分析
[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation