Scalable GANs with Transformers - 智源社区论文

向作者提问

NEW

简介

可扩展性推动了生成模型领域的近期进展，但其原则在对抗学习中的应用仍缺乏深入探索。我们通过两种在其他类型生成模型中已被证明有效的设计选择，来研究生成对抗网络（GANs）的可扩展性：一是在紧凑的变分自编码器（VAE）潜在空间中进行训练，二是采用完全基于Transformer结构的生成器和判别器。在潜在空间中训练能够实现高效的计算，同时保持良好的感知质量；而这种高效率与纯Transformer架构天然契合，因为后者性能随计算资源的增加而提升。基于这些设计，我们分析了在直接扩大GAN规模时出现的各种失败模式。具体而言，我们发现随着网络规模扩大，生成器的早期层利用不足，且优化过程变得不稳定。针对这些问题，我们提出了简单且有利于扩展的解决方案：轻量级的中间监督机制，以及考虑网络宽度的学习率调整策略。实验表明，GAT——一种完全基于Transformer且在潜在空间中运行的GAN——能够在广泛的模型容量（从S到XL）下稳定可靠地训练。此外，GAT-XL/2仅用40个训练周期，就在ImageNet-256上实现了单步、类别条件生成的最先进性能（FID为2.96），训练周期数比强基线方法减少了6倍。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决GAN在大规模扩展时出现的训练不稳定和网络层利用不足的问题，探索如何使GAN像其他生成模型一样有效利用可扩展性。这是一个相对新颖的问题，因为尽管生成模型的可扩展性已被广泛研究（如扩散模型和自回归模型），但在对抗生成网络中尚未系统探索。
关键思路

提出GAT（Generative Adversarial Transformers），将GAN训练置于紧凑的VAE潜在空间中，并采用纯Transformer架构作为生成器和判别器。关键创新在于结合潜在空间训练以提升计算效率，并通过轻量级中间监督和宽度感知学习率调整来缓解深层网络中的优化问题和早期层未被充分利用的问题。相比现有GAN设计，该方法更易于随模型容量扩展而稳定训练。
其它亮点

- 在ImageNet-256上仅用40个epoch即达到2.96的FID，比强基线少用6倍训练周期； - 模型从S到XL规模均可稳定训练，验证了良好的可扩展性； - 使用纯Transformer结构在潜在空间进行对抗训练，为GAN架构设计提供新方向； - 实验涵盖类条件图像生成任务，数据集为标准ImageNet-256； - 虽然文中未明确提及代码开源，但基于其清晰的设计与复现性，具备较高的后续研究价值； - 中间监督与学习率调整策略简单却有效，适合大规模应用。
相关研究

- Hierarchical Text-Conditional Image Generation with CLIP Latents (Parti, Google); - Scaling up GANs for Text-to-Image Synthesis (BigGAN, DeepMind); - Diffusion Models Beat GANs on Image Synthesis (OpenAI); - Transformer-based Generative Modeling (DiT, MaskGIT); - Learning Transferable Visual Models From Natural Language Supervision (CLIP); - Taming Transformers for High-Resolution Image Synthesis (VQGAN)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问