VideoTetris: Towards Compositional Text-to-Video Generation

2024年06月06日
  • 简介
    Diffusion模型在文本到视频生成方面取得了巨大的成功。然而,现有方法在处理涉及多个对象或对象数量动态变化的复杂(长)视频生成场景时可能面临挑战。为了解决这些限制,我们提出了一种新颖的框架VideoTetris,它可以实现组合式的文本到视频生成。具体来说,我们提出了时空组合扩散,通过空间和时间上的操作和组合去精确地跟随复杂的文本语义,并操纵去噪网络的注意力图。此外,我们提出了增强的视频数据预处理,以增强关于运动动态和提示理解的训练数据,并配备了新的参考帧注意机制,以提高自回归视频生成的一致性。广泛的实验表明,我们的VideoTetris在组合式文本到视频生成方面取得了令人印象深刻的定性和定量结果。代码可在此链接获得:https://github.com/YangLing0818/VideoTetris。
  • 图表
  • 解决问题
    该论文旨在解决文本到视频生成中复杂场景的生成问题,包括涉及多个对象或对象数量动态变化的情况。
  • 关键思路
    论文提出了一种新的框架VideoTetris,采用了时空组合扩散方法,通过对去噪网络的注意力图进行空间和时间上的操作来准确地遵循复杂的文本语义。此外,论文还提出了增强的视频数据预处理方法,并配备了新的参考帧注意力机制来提高自回归视频生成的一致性。
  • 其它亮点
    论文在复杂场景下的文本到视频生成方面取得了令人瞩目的定性和定量结果。实验使用了多个数据集,开源了代码,可供研究者使用。值得进一步研究的是如何进一步提高生成视频的质量和效率。
  • 相关研究
    在文本到视频生成领域,最近的相关研究包括:1)《Generative Adversarial Text-to-Video Synthesis》;2)《Text-to-Video Generation Grounded by Fine-Grained User Attention》;3)《Text2Scene: Generating Compositional Scenes from Textual Descriptions》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问