- 简介如今的 Transformer 在生成一分钟视频时仍然面临困难,因为自注意力层在处理长上下文时效率低下。而像 Mamba 层这样的替代方案,在应对复杂的多场景故事时表现不佳,因为它们的隐藏状态表达能力较弱。我们尝试使用测试时训练(Test-Time Training, TTT)层,其隐藏状态本身可以是神经网络,因此更具表达力。将 TTT 层添加到预训练的 Transformer 中,能够使其从文本故事板生成一分钟的视频。为了验证概念,我们基于《猫和老鼠》动画整理了一个数据集。与 Mamba 2、Gated DeltaNet 和滑动窗口注意力层等基线方法相比,TTT 层生成的视频连贯性更高,能够讲述更复杂的故事,在人类评估中,通过对每种方法生成的 100 段视频进行比较,TTT 层领先 34 个 Elo 分。尽管结果令人鼓舞,但生成的视频中仍存在一些瑕疵,这可能归因于所使用的预训练 5B 模型的能力有限。我们的实现效率也有提升空间。由于资源限制,我们目前仅针对一分钟视频进行了实验,但这种方法可以扩展到更长的视频和更复杂的故事。样本视频、代码和注释可在以下链接获取:https://test-time-training.github.io/video-dit
- 图表
- 解决问题论文试图解决生成高质量长视频(如一分钟视频)的问题,特别是基于文本故事板生成复杂多场景视频的任务。这是一个具有挑战性的问题,因为现有模型在处理长上下文和复杂叙事时表现不佳。
- 关键思路关键思路是引入Test-Time Training (TTT) 层,其隐藏状态本身可以是神经网络,从而增强表达能力。通过将TTT层添加到预训练的Transformer中,模型能够更有效地生成连贯且复杂的视频内容。相比其他方法(如Mamba层或滑动窗口注意力),TTT层在表达能力和生成质量上表现出显著优势。
- 其它亮点实验设计基于Tom and Jerry卡通数据集,并与多个基线模型(如Mamba 2、Gated DeltaNet等)进行了比较。结果显示TTT层生成的视频更连贯,人类评估中领先34 Elo点。此外,作者提供了样本视频、代码和注释以供复现和进一步研究。未来可扩展到更长视频和更复杂故事生成,但仍需改进模型效率和减少伪影问题。
- 相关研究包括:1) Mamba层,用于提高长序列建模能力;2) Gated DeltaNet,专注于高效处理高维时间序列;3) 滑动窗口注意力机制,优化长上下文建模效率。其他类似工作包括'Long Video Generation with Temporal Transformers'和'Neural Scene Graphs for Complex Storytelling',这些研究均尝试解决长视频生成中的不同挑战。
沙发等你来抢
去评论
评论
沙发等你来抢