- 简介目前,扩散模型在数据驱动图像合成领域占据主导地位,其可扩展性无与伦比。在本文中,我们确定并纠正了流行的ADM扩散模型架构中不均匀和无效训练的几个原因,同时没有改变其高层结构。观察到在训练过程中网络激活和权重的不受控制的幅度变化和不平衡,我们重新设计了网络层,以保持期望上的激活、权重和更新幅度。我们发现,系统地应用这种思路可以消除观察到的漂移和不平衡,从而在相等的计算复杂度下获得更好的网络。我们的修改将ImageNet-512合成中以前的最佳FID从2.41改善到1.81,使用快速确定性采样实现。作为独立的贡献,我们提出了一种在训练运行完成后设置指数移动平均(EMA)参数的方法。这允许精确调整EMA长度,而无需执行多个训练运行,并揭示了它与网络架构、训练时间和指导的惊人互动。
- 图表
- 解决问题本论文试图解决ADM扩散模型在训练过程中出现的不均匀和低效问题,提出了一种改进的网络层设计方案。同时,还提出了一种调整EMA参数的方法。
- 关键思路通过重新设计网络层,保持激活、权重和更新幅度的期望值,消除了观察到的漂移和不平衡现象,从而提高了网络的性能。同时,提出了一种后调整EMA参数的方法,可以精确调整EMA长度。
- 其它亮点实验结果显示,该方法将ImageNet-512合成的FID从2.41提高到1.81。论文使用了开源代码,并提供了详细的实验设计和数据集信息。值得进一步研究的工作包括模型的更深入分析和更广泛的应用场景探索。
- 与本论文相关的研究包括:《Large Scale GAN Training for High Fidelity Natural Image Synthesis》、《Generative Pretraining from Pixels》等。
沙发等你来抢
去评论
评论
沙发等你来抢