- 简介文本引导视频预测(TVP)涉及根据指令从初始帧预测未来帧的动作,广泛应用于虚拟现实、机器人和内容创作等领域。以前的TVP方法通过为此任务适应稳定扩散取得了重大突破。然而,由于视频数据集的规模有限,它们在帧一致性和时间稳定性方面存在困难。我们观察到,预训练的Image2Video扩散模型具有良好的视频动态先验知识,但它们缺乏文本控制。因此,将Image2Video模型转移,利用它们的视频动态先验知识,同时注入指令控制以生成可控制的视频,是一项有意义且具有挑战性的任务。为了实现这一点,我们引入了多模式大型语言模型(MLLM),基于初始帧和文本指令预测未来的视频状态。更具体地说,我们设计了一个双查询变压器(DQFormer)架构,将指令和帧集成到条件嵌入中,以预测未来的帧。此外,我们开发了长短期时间适配器和空间适配器,可以快速将通用视频扩散模型转移到具体场景,而无需进行大量的训练成本。实验结果表明,我们的方法在四个数据集上显著优于最先进的技术:Something Something V2、Epic Kitchen-100、Bridge Data和UCF-101。值得注意的是,AID在Bridge和SSv2上分别实现了91.2%和55.5%的FVD改进,证明了它在各个领域的有效性。更多示例可以在我们的网站https://chenhsing.github.io/AID上找到。
- 图表
- 解决问题本论文旨在解决文本指导视频预测中的帧一致性和时间稳定性问题,提出了一种基于预训练图像到视频扩散模型的多模态大语言模型来生成可控制的视频。
- 关键思路论文的关键思路是将预训练的图像到视频扩散模型与文本指令相结合,使用双重查询变换器(DQFormer)架构将指令和帧集成到未来帧预测的条件嵌入中。同时,开发了长短期时间适配器和空间适配器,以最小的训练成本快速将通用视频扩散模型转移到特定场景。
- 其它亮点论文在四个数据集上进行了实验,包括Something Something V2,Epic Kitchen-100,Bridge Data和UCF-101,结果表明该方法显著优于现有技术。此外,论文还开发了长短期时间适配器和空间适配器,可以将通用视频扩散模型快速转移到特定场景。论文的源代码和更多实验结果可以在作者的网站上找到。
- 在最近的相关研究中,也有一些关于文本指导视频预测的研究,如《Text-guided Video Prediction with Adversarial Learning》和《Text-based Editing of Talking-head Video》等。
沙发等你来抢
去评论
评论
沙发等你来抢