Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

2025年06月09日
  • 简介
    我们提出了自驱动(Self Forcing),这是一种为自回归视频扩散模型设计的全新训练范式。它解决了长期存在的曝光偏差问题,即在推理过程中,基于真实上下文训练的模型必须生成依赖于自身不完美输出的序列。与以往基于真实上下文帧对未来的帧进行去噪的方法不同,自驱动通过在训练过程中使用自回归展开和键值(KV)缓存,将每一帧的生成条件设定为之前自生成的输出。这种策略使得可以通过一种整体的视频级损失函数来监督模型,直接评估生成序列的整体质量,而不再单纯依赖传统的逐帧目标函数。为了确保训练效率,我们采用了一个几步式的扩散模型,并结合随机梯度截断策略,有效平衡了计算成本与性能。此外,我们还引入了一种滚动KV缓存机制,实现了高效的自回归视频外推。大量实验表明,我们的方法能够在单个GPU上以亚秒级延迟实现实时流式视频生成,同时生成质量媲美甚至超越显著更慢且非因果的扩散模型。项目网站:http://self-forcing.github.io/
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决视频生成中的暴露偏差(exposure bias)问题,即模型在训练时依赖于真实数据,但在推理时需要基于自身生成的不完美输出。这是一个长期存在的挑战,尤其是在自回归视频生成任务中。
  • 关键思路
    Self Forcing 提出了一种新的训练范式,通过在训练过程中使用自回归展开(autoregressive rollout)和键值缓存(KV caching),使模型能够基于自身生成的前序帧来预测后续帧。这种方法避免了传统方法对真实上下文帧的依赖,并引入了整体视频级别的监督损失。此外,论文还提出了一种高效的几步扩散模型和随机梯度截断策略,以降低计算成本。
  • 其它亮点
    1. Self Forcing 实现了实时流式视频生成,延迟低于一秒,且仅需单个 GPU;2. 在生成质量上,Self Forcing 匹配甚至超越了非因果扩散模型,而这些模型通常速度较慢;3. 论文提出了滚动 KV 缓存机制,进一步提升了自回归视频外推的效率;4. 项目代码已开源,实验设计涵盖了多种基准数据集;5. 研究表明,未来可以探索更高效的扩散模型以及更复杂的视频条件生成任务。
  • 相关研究
    近期相关研究包括:1. VD3(Video Diffusion with Dilated Temporal Context),该工作通过扩展时间上下文改进了视频扩散模型;2. CogVideo,一种结合文本到视频生成的多模态扩散模型;3. Frame Conditioning Diffusion (FCD),专注于通过逐帧条件化减少暴露偏差;4. VideoMAE,利用掩码自动编码器进行视频表示学习。这些研究共同推动了视频生成领域的进展,但 Self Forcing 的独特之处在于其直接解决了自回归生成中的暴露偏差问题。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问