- 简介我们提出了自驱动(Self Forcing),这是一种为自回归视频扩散模型设计的全新训练范式。它解决了长期存在的曝光偏差问题,即在推理过程中,基于真实上下文训练的模型必须生成依赖于自身不完美输出的序列。与以往基于真实上下文帧对未来的帧进行去噪的方法不同,自驱动通过在训练过程中使用自回归展开和键值(KV)缓存,将每一帧的生成条件设定为之前自生成的输出。这种策略使得可以通过一种整体的视频级损失函数来监督模型,直接评估生成序列的整体质量,而不再单纯依赖传统的逐帧目标函数。为了确保训练效率,我们采用了一个几步式的扩散模型,并结合随机梯度截断策略,有效平衡了计算成本与性能。此外,我们还引入了一种滚动KV缓存机制,实现了高效的自回归视频外推。大量实验表明,我们的方法能够在单个GPU上以亚秒级延迟实现实时流式视频生成,同时生成质量媲美甚至超越显著更慢且非因果的扩散模型。项目网站:http://self-forcing.github.io/
-
- 图表
- 解决问题论文试图解决视频生成中的暴露偏差(exposure bias)问题,即模型在训练时依赖于真实数据,但在推理时需要基于自身生成的不完美输出。这是一个长期存在的挑战,尤其是在自回归视频生成任务中。
- 关键思路Self Forcing 提出了一种新的训练范式,通过在训练过程中使用自回归展开(autoregressive rollout)和键值缓存(KV caching),使模型能够基于自身生成的前序帧来预测后续帧。这种方法避免了传统方法对真实上下文帧的依赖,并引入了整体视频级别的监督损失。此外,论文还提出了一种高效的几步扩散模型和随机梯度截断策略,以降低计算成本。
- 其它亮点1. Self Forcing 实现了实时流式视频生成,延迟低于一秒,且仅需单个 GPU;2. 在生成质量上,Self Forcing 匹配甚至超越了非因果扩散模型,而这些模型通常速度较慢;3. 论文提出了滚动 KV 缓存机制,进一步提升了自回归视频外推的效率;4. 项目代码已开源,实验设计涵盖了多种基准数据集;5. 研究表明,未来可以探索更高效的扩散模型以及更复杂的视频条件生成任务。
- 近期相关研究包括:1. VD3(Video Diffusion with Dilated Temporal Context),该工作通过扩展时间上下文改进了视频扩散模型;2. CogVideo,一种结合文本到视频生成的多模态扩散模型;3. Frame Conditioning Diffusion (FCD),专注于通过逐帧条件化减少暴露偏差;4. VideoMAE,利用掩码自动编码器进行视频表示学习。这些研究共同推动了视频生成领域的进展,但 Self Forcing 的独特之处在于其直接解决了自回归生成中的暴露偏差问题。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流