- 简介从非归一化密度函数中采样,其本质与生成建模问题类似,但目标分布由一个已知的能量函数定义,而非由数据样本定义。由于能量函数的计算往往开销较大,因此主要挑战在于学习一种高效的采样器。为此,我们提出了“流式采样”(Flow Sampling)框架,该框架以扩散模型与流匹配(flow matching)为基础,专为无需数据样本(data-free)的场景而设计。我们的训练目标以一个噪声样本为条件,并回归预测由能量函数构造出的去噪扩散漂移项(denoising diffusion drift);相比之下,传统扩散模型的训练目标则以一个真实数据样本为条件,并回归预测加噪扩散漂移项(noising diffusion drift)。我们采用插值过程(interpolant process),显著减少了训练过程中对能量函数的调用次数,从而构建出一种高效且可扩展的非归一化密度采样方法。此外,我们的方法自然地推广至黎曼流形,在欧氏空间之外的几何结构(如曲面)上实现基于扩散的采样。我们进一步推导出常曲率流形(包括超球面与双曲空间)上条件漂移项的闭式表达式。我们在多类任务上对流式采样进行了评估:合成能量函数基准测试、小分子肽段构象采样、大规模摊销式(amortized)分子构象生成,以及支撑集位于球面上的概率分布采样。实验结果表明,该方法具有优异的实证性能。
-
- 图表
- 解决问题如何高效地从已知能量函数(而非数据样本)定义的未归一化概率密度中采样,尤其在能量函数评估代价高昂、且需扩展到非欧几里得流形(如球面、双曲空间)的场景下。这是一个数据-free生成建模的新问题,区别于传统基于数据集的生成模型。
- 关键思路提出Flow Sampling框架:融合扩散模型与流匹配思想,在无数据条件下,以噪声样本为条件,直接回归由能量函数导出的*去噪扩散漂移项*(而非传统扩散模型中以数据为条件回归加噪漂移);引入插值过程(interpolant process)大幅减少训练中能量函数调用次数;首次将该范式自然推广至常曲率黎曼流形,并推导出球面与双曲空间上条件漂移的闭式解。
- 其它亮点在合成能量函数、小肽构象、大规模分子构象生成(amortized conformer generation)、球面分布等多类任务上验证有效性;实验覆盖Euclidean、S^2(球面)、H^2(双曲空间)三种几何;未提及开源代码;亮点包括计算高效(插值降低能量评估频次)、理论严谨(流形上漂移闭式解)、强泛化性(无需重训练即可适配不同流形);值得深入的方向包括:扩展至任意黎曼流形、结合物理约束的能量函数设计、与贝叶斯推理的联合优化。
- Score-based Generative Modeling through Stochastic Differential Equations (Song et al., NeurIPS 2021); Flow Matching for Generative Modeling (Lipman et al., NeurIPS 2022); Riemannian Score-Based Generative Modeling (De Bortoli et al., NeurIPS 2022); Diffusion Models on Manifolds (Campbell et al., ICML 2023); Energy-Based Models with Normalizing Flows (Grathwohl et al., NeurIPS 2020)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流