Linear Combination of Saved Checkpoints Makes Consistency and Diffusion Models Better

2024年04月02日
  • 简介
    本文介绍了两种流行的生成模型——扩散模型(DM)和一致性模型(CM),它们在各种任务上都有良好的生成质量。在训练DM和CM时,中间的权重检查点并没有得到充分利用,只有最后一个收敛的检查点被使用。本文发现,高质量的模型权重通常位于一个由SGD无法到达但可以通过适当的检查点平均获得的盆地中。基于这些观察,我们提出了LCSC,一种简单但有效和高效的方法,通过沿着训练轨迹组合检查点并使用演化搜索得出的系数来增强DM和CM的性能。我们通过两个用例展示了LCSC的价值:$\textbf{(a)减少训练成本。}$ 使用LCSC,我们只需要使用更少的迭代次数和/或更小的批量大小来训练DM/CM,就可以获得与完全训练的模型相当的样本质量。例如,LCSC在CIFAR-10上实现了CM的显着训练加速(23倍)和ImageNet-64上的15倍。$\textbf{(b)增强预训练模型。}$ 假设完全训练已经完成,LCSC可以进一步提高最终收敛模型的生成质量或速度。例如,在一致性蒸馏中,LCSC使用1个函数评估次数(NFE)比具有2个NFE的基础模型获得更好的性能,并将DM的NFE从15降至9,同时保持在CIFAR-10上的生成质量。我们的代码可在https://github.com/imagination-research/LCSC上找到。
  • 图表
  • 解决问题
    本文旨在提高Diffusion Models和Consistency Models的性能,通过结合训练过程中的中间检查点,使用演化搜索得出的系数来平均这些检查点,以实现更好的生成质量和更快的训练速度。
  • 关键思路
    本文提出了一种名为LCSC的方法,通过结合训练过程中的中间检查点,使用演化搜索得出的系数来平均这些检查点,以实现更好的生成质量和更快的训练速度。这种方法能够提高Diffusion Models和Consistency Models的性能,使得只需要更少的迭代次数和/或更小的批量大小即可获得与完全训练模型相当的样本质量。
  • 其它亮点
    本文通过两个用例展示了LCSC的价值。第一个用例是减少训练成本,LCSC可以在CIFAR-10上实现23倍的训练加速和15倍的ImageNet-64上的训练加速。第二个用例是增强预训练模型,LCSC可以在一次函数评估时实现比基本模型使用2次函数评估时更好的性能,并将DM的NFE从15降至9,同时保持在CIFAR-10上的生成质量。代码已经开源。
  • 相关研究
    近期在这个领域中,还有一些相关的研究,如《Understanding and Improving Interpolation in Autoencoder-based Anomaly Detection》、《Unsupervised Anomaly Detection with Variational Autoencoder and Differentiable Critic》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论