- 简介本文介绍了SANA-Sprint,这是一种高效的扩散模型,能够实现超快速的文本到图像(T2I)生成。SANA-Sprint基于预训练的基础模型构建,并通过混合蒸馏技术将推理步骤从20步大幅减少到1-4步。我们提出了三项关键创新:(1)我们提出了一种无需训练的方法,将预训练的流匹配模型转换为连续时间一致性蒸馏(sCM),从而避免了从头开始训练的高昂成本,实现了高训练效率。我们的混合蒸馏策略结合了sCM和潜在对抗蒸馏(LADD):sCM确保与教师模型的一致性,而LADD提升了单步生成的保真度。(2)SANA-Sprint是一种统一的步数自适应模型,能够在1-4步内实现高质量的图像生成,消除了针对特定步数的训练,进一步提高了效率。(3)我们将ControlNet与SANA-Sprint集成,用于实时交互式图像生成,使用户能够获得即时的视觉反馈。SANA-Sprint在速度与质量的权衡中建立了新的帕累托前沿,在仅1步的情况下达到了7.59的FID和0.74的GenEval评分,优于FLUX-schnell(7.94 FID / 0.71 GenEval),同时速度快10倍(H100上0.1秒对比1.1秒)。此外,它在H100上对1024 x 1024分辨率的图像生成实现了0.1秒(T2I)和0.25秒(ControlNet)的延迟,在RTX 4090上也仅需0.31秒(T2I),展示了其卓越的效率和在人工智能驱动的消费级应用(AIPC)中的潜力。代码和预训练模型将开源。
- 解决问题该论文试图解决文本到图像生成(T2I)模型在速度和质量之间的权衡问题,特别是如何通过减少推理步骤实现超快速高质量的图像生成。这是一个当前深度学习领域中的热点问题,尤其是在实际应用中对高效性和生成质量的需求日益增加的情况下。
- 关键思路SANA-Sprint 提出了三种关键创新:1)一种无需训练的方法,将预训练的流匹配模型转换为连续时间一致性蒸馏(sCM),结合潜在对抗蒸馏(LADD)提升单步生成保真度;2)统一的步长自适应模型,能够在1-4步内生成高质量图像,无需针对每一步进行特定训练;3)与ControlNet集成以支持实时交互式图像生成。这些方法显著减少了推理步骤并提升了效率。
- 其它亮点SANA-Sprint 在速度和质量上均达到了新的前沿水平,例如仅需1步即可达到7.59 FID 和 0.74 GenEval 的表现,并且比 FLUX-schnell 快10倍。此外,该模型在H100和RTX 4090上的低延迟展示了其高效的硬件兼容性。论文还计划开放源代码和预训练模型,这为后续研究提供了便利条件。未来可以进一步探索更多实际应用场景以及不同分辨率下的性能优化。
- 近期相关工作包括 FLUX-schnell,它同样关注加速扩散模型但未达到 SANA-Sprint 的速度和质量平衡。其他值得注意的研究有:'FastDiffusion: Accelerating Diffusion Models with Hybrid Distillation'、'Latent Diffusion Models for High-Quality Image Synthesis' 和 'ControlNet: Conditioning Score-Based Models with Extra Inputs'。这些研究共同推动了扩散模型在效率和功能上的进步。
沙发等你来抢
去评论
评论
沙发等你来抢