Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

向作者提问

NEW

简介

我们提出了自驱动（Self Forcing），这是一种为自回归视频扩散模型设计的全新训练范式。它解决了长期存在的曝光偏差问题，即在推理过程中，基于真实上下文训练的模型必须生成依赖于自身不完美输出的序列。与以往基于真实上下文帧对未来的帧进行去噪的方法不同，自驱动通过在训练过程中使用自回归展开和键值（KV）缓存，将每一帧的生成条件设定为之前自生成的输出。这种策略使得可以通过一种整体的视频级损失函数来监督模型，直接评估生成序列的整体质量，而不再单纯依赖传统的逐帧目标函数。为了确保训练效率，我们采用了一个几步式的扩散模型，并结合随机梯度截断策略，有效平衡了计算成本与性能。此外，我们还引入了一种滚动KV缓存机制，实现了高效的自回归视频外推。大量实验表明，我们的方法能够在单个GPU上以亚秒级延迟实现实时流式视频生成，同时生成质量媲美甚至超越显著更慢且非因果的扩散模型。项目网站：http://self-forcing.github.io/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决视频生成中的暴露偏差（exposure bias）问题，即模型在训练时依赖于真实数据，但在推理时需要基于自身生成的不完美输出。这是一个长期存在的挑战，尤其是在自回归视频生成任务中。
关键思路

Self Forcing 提出了一种新的训练范式，通过在训练过程中使用自回归展开（autoregressive rollout）和键值缓存（KV caching），使模型能够基于自身生成的前序帧来预测后续帧。这种方法避免了传统方法对真实上下文帧的依赖，并引入了整体视频级别的监督损失。此外，论文还提出了一种高效的几步扩散模型和随机梯度截断策略，以降低计算成本。
其它亮点

1. Self Forcing 实现了实时流式视频生成，延迟低于一秒，且仅需单个 GPU；2. 在生成质量上，Self Forcing 匹配甚至超越了非因果扩散模型，而这些模型通常速度较慢；3. 论文提出了滚动 KV 缓存机制，进一步提升了自回归视频外推的效率；4. 项目代码已开源，实验设计涵盖了多种基准数据集；5. 研究表明，未来可以探索更高效的扩散模型以及更复杂的视频条件生成任务。
相关研究

近期相关研究包括：1. VD3（Video Diffusion with Dilated Temporal Context），该工作通过扩展时间上下文改进了视频扩散模型；2. CogVideo，一种结合文本到视频生成的多模态扩散模型；3. Frame Conditioning Diffusion (FCD)，专注于通过逐帧条件化减少暴露偏差；4. VideoMAE，利用掩码自动编码器进行视频表示学习。这些研究共同推动了视频生成领域的进展，但 Self Forcing 的独特之处在于其直接解决了自回归生成中的暴露偏差问题。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问