Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps

2025年01月16日
  • 简介
    生成模型在各个领域产生了重大影响,这主要归功于它们在训练过程中通过增加数据、计算资源和模型规模来扩展的能力,这种现象由扩展定律所描述。最近的研究开始探索大语言模型(LLMs)在推理时间的扩展行为,揭示了如何通过在推理过程中增加计算量来进一步提高性能。与大语言模型不同,扩散模型本质上具有通过调整去噪步骤数量来改变推理时间计算的灵活性,尽管通常在几十步之后性能增益会趋于平稳。在这项工作中,我们探讨了扩散模型在增加去噪步骤之外的推理时间扩展行为,并研究如何通过增加计算量来进一步提高生成性能。具体来说,我们考虑了一个旨在为扩散采样过程找到更好噪声的搜索问题。我们沿着两个轴构建设计空间:用于提供反馈的验证器,以及用于寻找更好噪声候选的算法。通过在类别条件和文本条件图像生成基准上的广泛实验,我们的研究发现表明,增加推理时间的计算量可以显著提高扩散模型生成样本的质量,并且由于图像的复杂性,框架中的组件组合可以根据不同的应用场景进行特定选择。
  • 图表
  • 解决问题
    论文试图探索扩散模型在推理阶段通过增加计算资源来提升生成样本质量的可能性。这并不是一个全新的问题,因为已有研究探讨了大型语言模型(LLMs)的推理时间扩展行为,但针对扩散模型的此类研究相对较少。
  • 关键思路
    关键思路在于超越传统的增加去噪步骤的方法,通过引入搜索框架来优化扩散采样过程中的噪声选择。该框架包含两个维度:用于提供反馈的验证器和用于寻找更优噪声候选的算法。这种方法新颖地结合了搜索优化与扩散模型,为提高生成图像质量提供了新的视角。
  • 其它亮点
    论文设计了广泛的实验,涵盖了类条件和文本条件的图像生成基准测试,并证明了增加推理时计算量可以显著改善扩散模型生成样本的质量。此外,作者还展示了根据不同应用场景选择特定组件组合的重要性。虽然论文没有提及开源代码,但其提出的方法论为未来的研究提供了宝贵的方向,特别是在探索不同验证器和搜索算法的组合方面。
  • 相关研究
    最近在这个领域中,相关研究包括但不限于:1. 探索LLM推理时间扩展行为的工作,如《Scaling Laws for Autoregressive Generative Modeling》;2. 扩散模型的研究,如《Improved Techniques for Training Score-based Generative Models》;3. 图像生成领域的进展,如《Text-to-Image Synthesis with Diffusion Models》。这些研究共同推动了生成模型的发展,而本论文则专注于推理阶段的优化。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论