英伟达公布StyleGAN-XL：参数量3倍于StyleGAN3，计算时间仅为五分之一

英伟达的研究者近日提出了一种新的架构变化，并根据最新的 StyleGAN3 设计了渐进式生长的策略。研究者将改进后的模型称为 StyleGAN-XL，该研究目前已经入选了 SIGGRAPH 2022。

论文地址：https://arxiv.org/pdf/2202.00273.pdf
代码地址：https://github.com/autonomousvision/stylegan_xl

这些变化结合了 Projected GAN 方法，超越了此前在 ImageNet 上训练 StyleGAN 的表现。为了进一步改进结果，研究者分析了 Projected GAN 的预训练特征网络，发现当计算机视觉的两种标准神经结构 CNN 和 ViT [ Dosovitskiy et al. 2021] 联合使用时，性能显著提高。最后，研究者利用了分类器引导这种最初为扩散模型引入的技术，用以注入额外的类信息。

总体来说，这篇论文的贡献在于推动模型性能超越现有的 GAN 和扩散模型，实现了大规模图像合成 SOTA。论文展示了 ImageNet 类的反演和编辑，发现了一个强大的新反演范式 Pivotal Tuning Inversion (PTI)[ Roich et al. 2021] ，这一范式能够与模型很好地结合，甚至平滑地嵌入域外图像到学习到的潜在空间。高效的训练策略使得标准 StyleGAN3 的参数能够增加三倍，同时仅用一小部分训练时间就达到扩散模型的 SOTA 性能。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

英伟达公布StyleGAN-XL：参数量3倍于StyleGAN3，计算时间仅为五分之一

评论列表

评论