Animate Your Motion: Turning Still Images into Dynamic Videos

简介

最近几年，扩散模型在文本到视频生成方面取得了显著进展，引发了对视频输出的增强控制以更准确地反映用户意图的追求。传统的努力主要集中在使用语义线索，如图像或深度图，或基于运动的条件，如移动的草图或物体边界框。语义输入提供丰富的场景背景，但缺乏详细的运动特异性；相反，运动输入提供精确的轨迹信息，但缺少更广泛的语义叙述。我们首次在扩散模型中集成了语义和运动线索，如图1所示。为此，我们引入了场景和运动条件扩散（SMCD），这是一种管理多模态输入的新方法。它包含一个已知的运动调节模块，并探索了各种方法来集成场景条件，促进不同模态之间的协同作用。对于模型训练，我们将两种模态的条件分开，引入了一个两阶段的训练流程。实验结果表明，我们的设计显著提高了视频质量、运动精度和语义连贯性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在提高视频生成的精度和控制性，解决传统方法中语义和动作之间的矛盾问题。
关键思路

论文提出了一种新的方法，将语义和动作输入结合起来，通过两阶段训练来提高视频生成的质量和准确性。
其它亮点

论文使用了Scene and Motion Conditional Diffusion (SMCD)模型，实现了对多模态输入的管理，并在实验中显著提高了视频质量、动作精度和语义连贯性。论文使用了多个数据集进行实验，并开源了代码。
相关研究

在这个领域中，最近的相关研究包括：1. Learning to Generate Videos with Spatial-temporal Context-aware Graphs；2. Video Generation from Text: A Survey。

Animate Your Motion: Turning Still Images into Dynamic Videos

提问交流

提问交流