Improving the Training of Rectified Flows

2024年05月30日
  • 简介
    扩散模型在图像和视频生成方面表现出了很大的潜力,但从最先进的模型中进行采样需要昂贵的生成ODE的数值积分。解决这个问题的一种方法是修正流,它迭代地学习平滑的ODE路径,这些路径不容易出现截断误差。然而,修正流仍然需要相对较多的函数评估(NFEs)。在这项工作中,我们提出了改进的技术来训练修正流,使其即使在低NFE的情况下也能与知识蒸馏方法竞争。我们的主要观点是,在现实设置下,Reflow算法的单次迭代就足以学习几乎直线的轨迹,因此使用多个Reflow迭代的当前做法是不必要的。因此,我们提出了改进修正流的单轮训练技术,包括U形时间步长分布和LPIPS-Huber预度量。通过这些技术,在CIFAR-10上,在1 NFE设置下,我们将先前的2-修正流的FID提高了高达72%。在ImageNet 64×64上,我们改进的修正流在一步和两步设置中均优于一致性蒸馏和渐进蒸馏等最先进的蒸馏方法,并与改进的一致性训练(iCT)在FID上的表现相媲美。代码可在https://github.com/sangyun884/rfpp上获得。
  • 图表
  • 解决问题
    论文旨在解决采样高质量图像和视频所需的昂贵数值积分问题,提出改进的技术来训练修正流模型,使其在低NFE设置下与知识蒸馏方法竞争。
  • 关键思路
    论文提出了一种改进的技术来训练修正流模型,包括U形时间步长分布和LPIPS-Huber预度量,使其能够在一轮训练中学习几乎直线轨迹。
  • 其它亮点
    实验表明,使用这些技术,改进的修正流在CIFAR-10和ImageNet 64x64数据集上均优于现有的知识蒸馏方法和改进的一致性训练,且与改进的一致性训练在FID上表现相当。
  • 相关研究
    与该论文相关的研究包括一致性蒸馏、渐进蒸馏等方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论