AlphaFlow: Understanding and Improving MeanFlow Models

2025年10月23日
  • 简介
    MeanFlow最近作为一种从零开始训练的少步生成建模框架展现出强大潜力,但其成功背后的机制尚未被充分理解。在本研究中,我们发现MeanFlow的目标函数可自然地分解为两部分:轨迹流匹配(trajectory flow matching)和轨迹一致性(trajectory consistency)。通过梯度分析,我们发现这两项之间存在强烈的负相关性,导致优化过程中的冲突并减缓收敛速度。受此启发,我们提出了α-Flow——一个广泛的目标函数族,它在一个统一的框架下整合了轨迹流匹配、Shortcut Model和MeanFlow。通过采用一种课程学习策略,平滑地从轨迹流匹配过渡到MeanFlow,α-Flow有效解耦了相互冲突的目标,从而实现了更优的收敛性能。在使用标准DiT主干网络从头开始训练时,α-Flow在不同规模和设置下均持续优于MeanFlow。我们最大的模型α-Flow-XL/2+在类条件ImageNet-1K 256×256任务上取得了新的最先进结果,仅用1次和2次生成步骤(NFE)即分别达到了2.58和2.15的FID分数。
  • 作者讲解
  • 图表
  • 解决问题
    MeanFlow作为一种从零开始训练的少步生成建模框架虽表现出色,但其优化过程收敛慢且机制尚不明确。论文试图解决MeanFlow中因目标函数内部项之间的优化冲突导致的训练效率低下问题,并探究其成功背后的根本原因。这是一个尚未被充分理解的新问题。
  • 关键思路
    作者提出将MeanFlow的目标函数分解为轨迹流匹配和轨迹一致性两项,并发现二者存在强负相关,导致优化冲突。基于此,他们提出了α-Flow——一个统一轨迹流匹配、Shortcut Model和MeanFlow的广义目标函数家族,并通过从轨迹流匹配逐步退火到MeanFlow的课程学习策略,有效解耦冲突目标,提升收敛速度与模型性能。
  • 其它亮点
    在类条件ImageNet-1K 256x256任务上,使用标准DiT骨干网络从零训练,α-Flow在多种设置下均优于MeanFlow;其中α-Flow-XL/2+模型在1步和2步生成(1-NFE, 2-NFE)下分别取得2.58和2.15的FID分数,创下当前使用vanilla DiT结构的SOTA表现。实验设计严谨,覆盖不同模型规模与训练设置,验证了方法的鲁棒性。代码已开源,值得进一步探索其在更多架构与数据集上的泛化能力。
  • 相关研究
    1. Flow Matching for Generative Modeling 2. Rectified Flow: A Straight Path from Noise to Data 3. Analytic-DPM: End-to-End Diffusion Past Moments as Probabilistic Models 4. Training Schrödinger Bridges via Forward-Backward SDEs 5. Consistency Models
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问