AlphaFlow: Understanding and Improving MeanFlow Models

向作者提问

NEW

简介

MeanFlow最近作为一种从零开始训练的少步生成建模框架展现出强大潜力，但其成功背后的机制尚未被充分理解。在本研究中，我们发现MeanFlow的目标函数可自然地分解为两部分：轨迹流匹配（trajectory flow matching）和轨迹一致性（trajectory consistency）。通过梯度分析，我们发现这两项之间存在强烈的负相关性，导致优化过程中的冲突并减缓收敛速度。受此启发，我们提出了α-Flow——一个广泛的目标函数族，它在一个统一的框架下整合了轨迹流匹配、Shortcut Model和MeanFlow。通过采用一种课程学习策略，平滑地从轨迹流匹配过渡到MeanFlow，α-Flow有效解耦了相互冲突的目标，从而实现了更优的收敛性能。在使用标准DiT主干网络从头开始训练时，α-Flow在不同规模和设置下均持续优于MeanFlow。我们最大的模型α-Flow-XL/2+在类条件ImageNet-1K 256×256任务上取得了新的最先进结果，仅用1次和2次生成步骤（NFE）即分别达到了2.58和2.15的FID分数。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

MeanFlow作为一种从零开始训练的少步生成建模框架虽表现出色，但其优化过程收敛慢且机制尚不明确。论文试图解决MeanFlow中因目标函数内部项之间的优化冲突导致的训练效率低下问题，并探究其成功背后的根本原因。这是一个尚未被充分理解的新问题。
关键思路

作者提出将MeanFlow的目标函数分解为轨迹流匹配和轨迹一致性两项，并发现二者存在强负相关，导致优化冲突。基于此，他们提出了α-Flow——一个统一轨迹流匹配、Shortcut Model和MeanFlow的广义目标函数家族，并通过从轨迹流匹配逐步退火到MeanFlow的课程学习策略，有效解耦冲突目标，提升收敛速度与模型性能。
其它亮点

在类条件ImageNet-1K 256x256任务上，使用标准DiT骨干网络从零训练，α-Flow在多种设置下均优于MeanFlow；其中α-Flow-XL/2+模型在1步和2步生成（1-NFE, 2-NFE）下分别取得2.58和2.15的FID分数，创下当前使用vanilla DiT结构的SOTA表现。实验设计严谨，覆盖不同模型规模与训练设置，验证了方法的鲁棒性。代码已开源，值得进一步探索其在更多架构与数据集上的泛化能力。
相关研究

1. Flow Matching for Generative Modeling 2. Rectified Flow: A Straight Path from Noise to Data 3. Analytic-DPM: End-to-End Diffusion Past Moments as Probabilistic Models 4. Training Schrödinger Bridges via Forward-Backward SDEs 5. Consistency Models

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问