- 简介最近几年,扩散模型在文本到视频生成方面取得了显著进展,引发了对视频输出的增强控制以更准确地反映用户意图的追求。传统的努力主要集中在使用语义线索,如图像或深度图,或基于运动的条件,如移动的草图或物体边界框。语义输入提供丰富的场景背景,但缺乏详细的运动特异性;相反,运动输入提供精确的轨迹信息,但缺少更广泛的语义叙述。我们首次在扩散模型中集成了语义和运动线索,如图1所示。为此,我们引入了场景和运动条件扩散(SMCD),这是一种管理多模态输入的新方法。它包含一个已知的运动调节模块,并探索了各种方法来集成场景条件,促进不同模态之间的协同作用。对于模型训练,我们将两种模态的条件分开,引入了一个两阶段的训练流程。实验结果表明,我们的设计显著提高了视频质量、运动精度和语义连贯性。
-
- 图表
- 解决问题论文旨在提高视频生成的精度和控制性,解决传统方法中语义和动作之间的矛盾问题。
- 关键思路论文提出了一种新的方法,将语义和动作输入结合起来,通过两阶段训练来提高视频生成的质量和准确性。
- 其它亮点论文使用了Scene and Motion Conditional Diffusion (SMCD)模型,实现了对多模态输入的管理,并在实验中显著提高了视频质量、动作精度和语义连贯性。论文使用了多个数据集进行实验,并开源了代码。
- 在这个领域中,最近的相关研究包括:1. Learning to Generate Videos with Spatial-temporal Context-aware Graphs;2. Video Generation from Text: A Survey。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流