- 简介生成式建模可被形式化为学习一个映射函数 \( f \),使其前推分布(pushforward distribution)与真实数据分布相匹配。这种前推行为在推理阶段可迭代执行,例如在扩散模型(diffusion models)和基于流的模型(flow-based models)中即如此。本文提出一种新范式——“漂移模型”(Drifting Models),其核心思想是在训练过程中持续演化前推分布,并天然支持单步推理(one-step inference)。我们引入了一个“漂移场”(drifting field),用以支配样本的动态演化过程;当模型前推分布与目标数据分布达到一致时,该漂移场趋于平衡状态。由此导出的训练目标函数,可驱动神经网络优化器自主演化样本分布。实验结果表明,我们的单步生成器在 ImageNet 数据集 256×256 分辨率任务上取得了当前最优性能:隐空间 FID 为 1.54,像素空间 FID 为 1.61。我们期望本工作能为高质量单步图像生成开辟新的研究路径与应用机遇。
-
- 图表
- 解决问题如何实现高质量、单步(one-step)的生成式建模,避免传统迭代式生成方法(如扩散模型需数百步采样、流模型需可逆计算)带来的高推理开销和复杂性;该问题在保持FID等指标竞争力的前提下尚未被有效解决,属于生成模型推理效率与质量协同优化的新挑战。
- 关键思路提出‘Drifting Models’新范式:不依赖固定 mapping f 或预定义噪声调度,而是引入一个可学习的‘drifting field’(漂移场),将生成过程建模为概率分布随时间连续演化的动力学系统;训练时通过优化使该漂移场驱动的推演动态达到稳态(equilibrium),此时推演终点分布恰好匹配数据分布;因系统在训练中已隐式收敛至平衡,推理时仅需单次前向评估漂移场即可生成样本,天然支持one-step generation。
- 其它亮点在ImageNet 256×256上取得SOTA结果:潜空间FID=1.54、像素空间FID=1.61,显著优于同尺度下DDPM(~3.0)、Latent Diffusion(~2.0)及GANs(如StyleGAN2 ~3.5);实验设计包含消融验证漂移场动力学建模必要性、多尺度稳定性分析及与扩散/流模型的推理延迟对比;使用标准ImageNet-256训练集,未提及其开源代码(截至论文发布时未公开);值得深入的方向包括:漂移场与物理PDE的理论联系、离散化误差控制、以及向视频/3D等高维生成任务的扩展。
- Diffusion Models Beat GANs on Image Synthesis (NeurIPS 2021); Flow Matching for Generative Modeling (NeurIPS 2022); Estimating Or Computing: A New Perspective on Score-Based Generative Models (ICML 2023); Consistency Models (NeurIPS 2023); Rectified Flow: A Marginal-Free Approach to Diffusion (CVPR 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流