- 简介最近,文本到视频生成(T2V)取得了显著的成功,能够从文本描述中合成高质量的通用视频。T2V 中一个被大多数人忽视的问题是,现有模型没有充分编码真实世界的物理知识,因此生成的视频往往运动有限,变化差。本文提出了一个名为 MagicTime 的变形时间-lapse 视频生成模型,该模型从时间-lapse 视频中学习真实世界的物理知识并实现变形生成。首先,我们设计了一个 MagicAdapter 方案来解耦空间和时间训练,从变形视频中编码更多的物理知识,并转换预训练的 T2V 模型以生成变形视频。其次,我们引入了一种动态帧提取策略,以适应变形时间-lapse 视频,这些视频具有更广泛的变化范围,并涵盖戏剧性的物体变形过程,因此体现了更多的物理知识。最后,我们引入了一个 Magic Text-Encoder 来改进对变形视频提示的理解。此外,我们创建了一个名为 ChronoMagic 的时间-lapse 视频-文本数据集,专门为解锁变形视频生成能力而精心策划。广泛的实验证明了 MagicTime 生成高质量、动态变形视频的优越性和有效性,表明时间-lapse 视频生成是构建物理世界变形模拟器的一个有前途的路径。
-
- 图表
- 解决问题本论文旨在解决现有的文本生成视频模型在编码真实世界物理知识方面存在的不足,从而生成的视频动作有限且变化不足的问题。同时,还试图探索基于时间变化的视频生成模型,以更好地模拟物理世界中的变化。
- 关键思路论文提出了一种名为MagicTime的元变时间-lapse视频生成模型,该模型从时间-lapse视频中学习真实世界的物理知识,并实现元变生成。通过设计MagicAdapter方案将空间和时间训练分离,从元变视频中编码更多的物理知识,并转换预训练的文本生成视频模型以生成元变视频。同时,采用Dynamic Frames Extraction策略适应元变时间-lapse视频,提高视频生成的物理知识。最后,引入了Magic Text-Encoder来提高对元变视频提示的理解能力。
- 其它亮点论文创建了一个名为ChronoMagic的时间-lapse视频文本数据集,用于解锁元变视频生成能力。实验结果表明,MagicTime生成的元变视频质量高且动态,说明时间-lapse视频生成是建立物理世界元变模拟器的有前途的方向。
- 最近在这个领域中,还有一些相关的研究,如:1.《Text-to-Video Generation Grounded by Fine-Grained User Attention》;2.《Diverse and Controllable Video Generation with Invariant and Non-Invariant Factors》;3.《Few-Shot Video-to-Video Synthesis》等。
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流