【论文标题】Ensembling with Deep Generative Views

【作者团队】Lucy Chai, Jun-Yan Zhu, Eli Shechtman, Phillip Isola, Richard Zhang

【发表时间】2021/04/29

【机 构】MIT & Adobe & CMU

【论文链接】https://arxiv.org/abs/2104.14551v1

【推荐理由】基于预训练的GAN图像增强

 

近年来的生成模型已经可以做到只从无标签的图像合集中学习获得合成人工图像的能力,从而模仿真实世界的变化比如颜色或姿势的变化。在本文中,作者研究这种观点是否可以应用于真实的图像在下游的分析任务,比如图像分类。作者首先使用一个预训练的生成器,找到与给定的真实输入图像相对应的隐层编码,对编码进行扰动产生图像的自然变化,然后可以在测试时将其集成在一起以作为真实图像的图像增强。本文使用StyleGAN2作为生成增强的来源,并在涉及面部属性、猫脸和汽车的分类任务中研究这一设置。经过实验作者发现部分设计决策对上述假设的奏效十分重要:图像隐层编码扰动过程、增强的图像和原始图像之间的权重,以及在增强图像上训练分类器的过程都会影响结果。总体上本文发现,虽然基于GAN增强的集成对下游任务可以提供一些小的性能提升,但剩下的主要瓶颈是GAN重建的效率和准确性,以及分类器对GAN生成的图像中的敏感性。

 

上图为该工作的一个例子,作者将输入图像投射到预训练好的GAN的隐层空间中,并对其进行轻微扰动,以获得输入图像的修改。这些来自GAN的替代图片在测试时与原始图像一起被集成到下游的分类任务中。

上图展示了对于人脸、汽车和猫的领域的GAN扰动的可视化。作者首先对输入图像重建,对其进行居中处理。然后一旦隐层编码被优化可获得输入的最佳重建,作者将进行三种类型的隐层编码调整:各向同性、PCA和风格混合扰动。该3种在潜伏编码的调整主要关注粗层和细层,粗层的操作改变了姿势和尺寸,而细层的操作改变了颜色。

上图展示了集成深度生成图像的效果。左右分别为汽车和猫的分类精度,X轴展示了训练分布,即原始图像、GAN重建和GAN风格混合,彩色条展示了测试程序,即原始图像,以及各向同性、PCA和基于混合的GAN增强,虚线是在真实的图像上训练和测试的基线。当分类器在数据集图像上训练时,测试时GAN生成的图像集成只在汽车数据集上提供改进。在GAN生成的视图上对分类器进行微调,可以提高测试时集成的效果,并优于基线。测试时的精细层风格混合是汽车领域的最佳扰动类型,而在猫领域,粗层风格混合是最好的。与汽车相比,GAN增强对猫分类的好处较弱;这也许是因为猫的分类是一个更难的问题,导致有用的扰动空间更受限制。

内容中包含的图片若涉及版权问题,请及时与我们联系删除