扩散概率模型(DPMs)在高分辨率图像合成领域,尤其是在最近的大规模文生图的应用中取得了显著成果。作为提升样本质量的一项关键技术,引导采样通常需要较大的引导强度才能获得最佳效果。目前广泛使用的引导采样快速方法是去噪扩散隐式模型(DDIM),它是一种一阶扩散常微分方程(ODE)求解器,通常需要100到250步来生成高质量样本。尽管已有研究提出专门的高阶求解器,并在无引导采样中实现了采样加速,但它们在引导采样中的效果尚未被充分验证。清华大学朱军教授团队提出,已有的高阶快速采样器在引导强度较大时存在稳定性问题,甚至比DDIM更慢。为进一步加快引导采样,团队提出 DPM-Solver++,这是一种高阶求解器,使用数据预测模型求解扩散ODE,并通过阈值截断方法使生成结果更贴近训练数据分布。此外,他们还提出一种多步变体,通过减小有效步长来解决不稳定性问题。实验表明,DPM-Solver++在像素空间和潜空间扩散模型中,仅需15至20步即可生成高质量样本。
全文下载:
DPM-Solver++: Fast Solver for Guided Sampling of Diffusion Probabilistic Models
Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li & Jun Zhu
https://link.springer.com/article/10.1007/s11633-025-1562-4
全文导读
扩散概率模型(DPMs)在高分辨率图像合成、图像编辑、文本生成图像、语音合成、三维生成、分子生成、视频生成以及数据压缩等多种任务中取得了显著成果。相比生成对抗网络(GANs)和变分自编码器(VAEs)等其他深度生成模型,DPMs 借助一种名为“引导采样”的关键技术,能够生成质量更高的样本。引导采样利用额外的引导模型,提高生成样本的保真度,并增强生成结果与条件之间的一致性。借助该技术,DPMs在文本生成图像、图像生成图像等任务中,能够生成与输入条件高度匹配的高分辨率、逼真且具有艺术风格的图像,推动了人工智能艺术创作的新潮流。
扩散概率模型的采样过程可视为从纯高斯随机变量逐步去噪以获得清晰数据的过程,可通过对扩散随机微分方程(SDE)或扩散常微分方程(ODE)的离散化来建模,这些方程由参数化的噪声预测模型或数据预测模型定义。引导采样可通过将无条件模型与引导模型相结合,并通过超参数控制引导强度进行建模。目前广泛使用的引导采样方法是DDIM,其被证明为一阶扩散ODE求解器,通常需要100至250次大型神经网络计算才能收敛,计算成本较高。
在无引导采样的情况下,专门设计的高阶扩散ODE求解器仅需10到20步即可生成高质量样本。然而,其在引导采样中的有效性此前尚未深入研究。本文发现,已有用于DPMs的高阶求解器在引导采样中表现不佳,甚至不如简单的一阶求解器DDIM,如图1所示。当前其主要面临两大挑战:(1)较大的引导强度缩小了高阶求解器的收敛半径,导致不稳定;(2)收敛解的数值范围与训练数据不一致,造成"训练-测试不匹配"。
图1 以往的高阶求解器在引导采样时表现不稳定
基于上述观察,本文提出DPM-Solver++,一种无需训练的快速扩散ODE求解器,专用于引导采样。研究发现,扩散模型的参数化方式对求解质量有关键影响。因此本文选择基于数据预测模型来求解扩散ODE,该模型可在输入噪声的基础上预测出清晰数据。本文据此推导出适用于该参数化方式的高阶求解器,并采用动态阈值截断方法缓解训练-测试不匹配问题。此外,本文还开发了一种多步求解器,通过减小步长以提高采样稳定性。
如图1和图2所示,DPM-Solver++仅需15步即可生成高质量样本,其速度远超此前所有无需训练的引导采样方法。进一步的实验结果表明一致的加速效果,广泛适用于像素空间和潜空间的引导采样任务。
图2 不同解算器在DeepFloyd-IF(像素空间引导采样)中的表现
全文下载:
DPM-Solver++: Fast Solver for Guided Sampling of Diffusion Probabilistic Models
Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li & Jun Zhu
https://link.springer.com/article/10.1007/s11633-025-1562-4
BibTex:
@Article {MIR-2025-03-102,
author={Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, Jun Zhu},
journal={Machine Intelligence Research},
title={DPM-Solver++: Fast Solver for Guided Sampling of Diffusion Probabilistic Models},
year={2025},
pages={1-22},
doi={10.1007/s11633-025-1562-4}}
特别感谢本文通讯作者&清华大学朱军教授对以上内容的审阅和修改!
MIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接填写收件地址,编辑部将尽快为您免费寄送纸版全文!
说明:如遇特殊原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737
收件信息登记:
https://www.wjx.cn/vm/eIyIAAI.aspx#
关于Machine Intelligence Research
Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录,入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区,最佳排名挺进Top 4%,2023年CiteScore分值继续跻身Q1区。2024年获得首个影响因子(IF) 6.4,位列人工智能及自动化&控制系统两个领域JCR Q1区;2025年发布的最新影响因子达8.7,继续跻身JCR Q1区,最佳排名进入全球第6名;2025年一举进入中科院期刊分区表计算机科学二区。

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢