论文地址:https://arxiv.org/pdf/2207.10642.pdf

开源代码:https://github.com/apple/ml-gmpi

摘要

制造一个现有的2D GAN 3DaWare真正需要什么?为了回答这个问题,我们尽可能少地修改一个经典的GAN,即StyleGANv2。我们发现只有两个修改是绝对必要的:1)一个多平面图像样式生成器分支,它产生一组以深度为条件的alpha映射;2)posecendedied鉴别器。我们将生成的输出称为“生成多平面图像”(GMPI),并强调其渲染不仅高质量,而且保证视图一致,这使得GMPIs不同于许多以前的作品。重要的是,alpha图的数量可以动态调整,可以在训练和推理之间有所不同,减轻了记忆问题,并使GMPIs在10242分辨率下在不到半天的时间内快速训练。我们的发现在三个具有挑战性和常见的高分辨率数据集上是一致的,包括FFHQ、AFHQv2和MetFaces。

主要贡献

 概括地说,我们的贡献有两个方面:1)我们首次研究了一个用标准单视图二维图像数据集训练的类MPI三维感知生成模型;2)我们发现,根据深度或可学习标记来调整α平面,以及根据相机姿态来调整鉴别器,足以制作2D GAN 3DaWare。其他信息提供了改进,但并不是严格必需的。我们研究了上述在三个高分辨率数据集上编码3D感知归纳偏差的方法:FFHQ[34]、AFHQv2[12]和MetFaces[32]。如图1所示,在所有三个数据集上,我们的发现是一致的。

实验

我们在三个数据集(FFHQ、AFHQv2和MetFaces)和各种分辨率上分析GMPI。我们首先提供关于三个数据集的详细信息,然后讨论评估指标和定量以及定性结果。

内容中包含的图片若涉及版权问题,请及时与我们联系删除