Long Context Tuning for Video Generation

2025年03月13日
  • 简介
    近期视频生成技术的进步已经能够使用可扩展的扩散变压器生成逼真且长达一分钟的单镜头视频。然而,现实世界的叙事性视频需要多镜头场景,并且要求在各镜头之间保持视觉和动态一致性。在这项工作中,我们提出了长上下文调优(LCT),这是一种训练范式,可以扩展预训练单镜头视频扩散模型的上下文窗口,从而直接从数据中学习场景级别的连贯性。我们的方法将全注意力机制从单个镜头扩展到涵盖整个场景的所有镜头,同时引入交错的3D位置嵌入和异步噪声策略,从而在不增加额外参数的情况下实现联合生成和自回归生成。经过LCT后的具有双向注意力的模型还可以通过上下文因果注意力进一步微调,从而利用高效的KV缓存进行自回归生成。实验表明,经过LCT的单镜头模型能够生成连贯的多镜头场景,并展现出新兴能力,包括组合生成和交互式镜头扩展,为更实用的视觉内容创作铺平了道路。更多详情请参见 https://guoyww.github.io/projects/long-context-video/。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决生成多镜头叙事视频时的视觉和动态一致性问题。现有的单镜头视频生成模型虽然能够生成高质量的短片段,但在处理多镜头场景时缺乏跨镜头的一致性。这是一个尚未完全解决的问题,尤其是在长时序场景生成方面。
  • 关键思路
    论文提出了一种名为Long Context Tuning (LCT) 的训练范式,通过扩展预训练单镜头视频扩散模型的上下文窗口,直接从数据中学习场景级别的连贯性。关键创新点在于将全注意力机制从单个镜头扩展到整个场景,并引入交错的3D位置嵌入和异步噪声策略,从而实现联合或自回归的镜头生成,而无需额外参数。此外,LCT后还可以通过因果注意机制进一步微调模型以支持高效的KV缓存。
  • 其它亮点
    论文展示了LCT方法可以生成连贯的多镜头场景,并表现出组合生成和交互式镜头扩展等新兴能力。实验设计包括对不同长度和复杂度的场景进行测试,验证了模型在一致性和多样性的表现。代码和项目页面已开源(https://guoyww.github.io/projects/long-context-video/)。未来可深入研究的方向包括更复杂的叙事结构生成以及与文本或其他模态的结合。
  • 相关研究
    近期相关研究包括:1) Scalable Diffusion Transformers for Single-Shot Video Generation,专注于高质量单镜头视频生成;2) Multi-Modal Video Synthesis with Cross-Attention Mechanisms,探索跨模态信息对视频生成的影响;3) Long-Term Video Prediction via Hierarchical Scene Graphs,利用场景图进行长时间预测。这些工作主要集中在单镜头或有限时间范围内的生成,而本研究则突破了这一限制。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问