Align Your Flow: Scaling Continuous-Time Flow Map Distillation

2025年06月17日
  • 简介
    扩散模型和基于流的模型已成为最先进的生成建模方法,但它们需要许多采样步骤。一致性模型可以将这些模型提炼为高效的一步生成器;然而,与基于流和扩散的方法不同,当增加步骤数量时,其性能不可避免地会下降,这一点我们通过分析和实验证明了。流映射(Flow maps)通过在单个步骤中连接任意两个噪声水平,对这些方法进行了推广,并且在所有步数条件下仍然保持有效性。在本文中,我们为训练流映射引入了两个新的连续时间目标函数,以及额外的创新训练技术,从而推广了现有的一致性模型和流匹配目标函数。我们进一步证明了自引导(autoguidance)可以通过使用低质量模型在蒸馏过程中进行引导以提升性能,而通过对抗性微调还可以进一步提高性能,同时几乎不会损失样本多样性。我们对我们的流映射模型(称为“Align Your Flow”)进行了广泛的验证,在具有挑战性的图像生成基准测试中表现出色,并在ImageNet 64x64和512x52分辨率上实现了最先进的少步生成性能,使用的神经网络既小又高效。最后,我们展示了文本到图像的流映射模型,该模型在条件文本合成任务中超越了所有现有的非对抗性训练的少步采样器。
  • 图表
  • 解决问题
    该论文试图解决扩散模型和流模型在高效生成中的采样步骤问题。具体来说,如何通过减少采样步骤来加速生成过程,同时保持高质量的生成结果。这是一个持续优化的问题,但本研究提出了一种新的方法——Flow Maps,以进一步改进现有的效率瓶颈。
  • 关键思路
    论文的核心思路是引入Flow Maps作为通用框架,能够一次性连接任意两个噪声水平,并提出两种新的连续时间训练目标来优化这一框架。此外,论文还结合了自引导(autoguidance)技术和对抗微调(adversarial finetuning),从而在保证样本多样性的同时提升生成质量。相比现有方法,Flow Maps不仅支持单步高效生成,还能在多步生成中保持性能不降级。
  • 其它亮点
    1. 提出了Align Your Flow模型,在ImageNet 64x64和512x512上实现了最先进的少步生成性能;2. 使用小型高效神经网络进行实验验证;3. 展示了文本到图像生成任务中的优越性,超越了所有非对抗性训练的少步采样器;4. 论文设计了详尽的实验,包括解析性和经验性验证,并讨论了不同步数下的性能变化;5. 尽管未明确提及代码开源,但其技术细节足够详细,便于复现和进一步研究。
  • 相关研究
    相关工作包括:1. 扩散模型(Diffusion Models)如DDPM和Score-based Models;2. 流模型(Flow Models)如RealNVP、Glow;3. Consistency Models及其对扩散模型的蒸馏应用;4. 最近提出的连续时间生成模型(Continuous-time Generative Models)。一些相关的论文标题包括《Denoising Diffusion Probabilistic Models》、《Consistency Models》以及《Flow Matching for Generative Modeling》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论