简介:最近,视觉变换器(ViTs)在图像识别显示出潜力,同时需要较少的视觉特定归纳偏差。 在论文中,我们研究了这种观察是否可以扩展到图像生成。 至此,我们将ViT架构集成到生成对抗网络中。 我们观察到现有的GAN正则化方法与self-attention交互不佳,在训练过程中造成严重的不稳定。 为了解决这个问题,我们介绍了使用ViT训练GAN的新颖正则化技术。在CIFAR-10、CelebA和LSUN卧室数据集上,我们的ViTGAN的方法实现了性能可媲美最先进的基于CNN的StyleGAN2。
论文地址:https://arxiv.org/pdf/2107.04589v1.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
举报类型(必选)
举报详情(选填)
0/200
沙发等你来抢
评论
沙发等你来抢