Continuous Adversarial Flow Models

向作者提问

NEW

简介

我们提出了连续对抗流模型（Continuous Adversarial Flow Models），这是一类以对抗式目标函数进行训练的连续时间流模型。与采用固定均方误差（MSE）准则的流匹配（Flow Matching）方法不同，我们的方法引入了一个可学习的判别器来引导训练过程。这一目标函数的改变导致模型收敛至一种不同的广义分布，实证结果表明，由此生成的样本与目标数据分布之间具有更优的一致性。本方法主要面向对已训练完成的流匹配模型进行后训练（post-training），但亦可直接用于从零开始训练新模型。在 ImageNet 256×256 图像生成任务上，经后训练后，隐空间 SiT 模型在无引导（guidance-free）条件下的 FID 指标由 8.26 显著降低至 3.63，像素空间 JiT 模型的对应指标则由 7.17 降至 3.57；在有引导的生成任务中，该方法同样提升了性能：SiT 的 FID 由 2.06 进一步降至 1.53，JiT 的 FID 也由 1.86 优化至 1.80。此外，我们在文本到图像生成任务上进一步验证了该方法的有效性，在 GenEval 和 DPG 两大基准测试中均取得了更优的结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何提升连续时间流模型（continuous-time flow models）的生成质量，特别是在后训练阶段无需重新设计架构即可显著改善样本保真度与分布对齐；该问题聚焦于弥补标准flow matching中固定MSE损失导致的分布偏差，属于生成建模中目标导向优化的新范式探索。
关键思路

提出连续对抗流模型（continuous adversarial flow models），用可学习的判别器替代传统flow matching中的确定性L2损失，将训练目标转化为极小化极大博弈，从而隐式引导流轨迹逼近真实数据分布——这是首次将对抗训练原则系统性嵌入连续时间ODE/SDE流框架，并支持即插即用式后训练微调。
其它亮点

在ImageNet 256px上实现SOTA级FID提升：SiT（latent）指导自由FID从8.26→3.63（-56%），JiT（pixel）从7.17→3.57（-50%）；指导生成FID同步下降；扩展至text-to-image任务，在GenEval和DPG基准上一致提升；方法兼容现有flow-matching检查点，无需重训主干；论文未公开代码，但实验细节完整、消融充分；值得深入的方向包括：对抗流的理论收敛性分析、判别器时变权重调度、以及在扩散模型蒸馏中的迁移应用。
相关研究

Flow Matching (Lipman et al., ICML 2023); Conditional Flow Matching (Chen et al., NeurIPS 2023); Rectified Flow (Liu et al., ICLR 2024); Diffusion Models Beat GANs on Image Synthesis (Dhariwal & Nichol, NeurIPS 2021); Score-Based Generative Modeling through Stochastic Differential Equations (Song et al., ICLR 2021)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问