Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models

简介

扩散模型由于其强大的生成能力，在图像动画方面取得了巨大进展。然而，保持与输入静态图像中的详细信息（例如风格、背景和对象）的时空一致性，并在受文本提示引导的动画视频叙述中确保平滑仍然具有挑战性。在本文中，我们介绍了一种新颖的图像动画方法Cinemo，旨在实现更好的运动可控性以及更强的时空一致性和平滑性。总体上，我们提出了三种有效的策略，用于Cinemo的训练和推理阶段，以实现我们的目标。在训练阶段，Cinemo专注于学习运动残差的分布，而不是通过运动扩散模型直接预测下一个。此外，提出了一种基于结构相似性指数的策略，使Cinemo能够更好地控制运动强度。在推理阶段，引入了一种基于离散余弦变换的噪声细化技术，以减轻突然的运动变化。这三种策略使Cinemo能够产生高度一致、平滑和可控的结果。与以前的方法相比，Cinemo提供了更简单、更精确的用户可控性。通过多个指标对多个最先进的方法进行了广泛的实验，包括商业工具和研究方法，证明了我们提出的方法的有效性和优越性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决图像动画中的一些挑战，包括如何保持空间-时间一致性以及如何确保动画的平滑性和运动可控性。
关键思路

Cinemo提出了三个有效策略来解决这些问题：在训练阶段，学习运动残差的分布，而不是直接预测下一个运动；使用基于结构相似性指数的策略来控制运动强度；在推理阶段，使用基于离散余弦变换的噪声细化技术来缓解突然的运动变化。
其它亮点

Cinemo相比其他方法提供了更简单、更精确的用户可控性。实验结果表明，Cinemo在多个指标上优于其他商业工具和研究方法。论文中还使用了多个数据集进行实验，同时提供了开源代码。
相关研究

最近的相关研究包括：《Diffusion Models Beat GANs on Image Synthesis》、《Motion Field to Image: Jointly Learning to Rigorously Optimize Data Fidelity and Transformability》等。

Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models

提问交流

提问交流