Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models

2024年07月22日
  • 简介
    扩散模型由于其强大的生成能力,在图像动画方面取得了巨大进展。然而,保持与输入静态图像中的详细信息(例如风格、背景和对象)的时空一致性,并在受文本提示引导的动画视频叙述中确保平滑仍然具有挑战性。在本文中,我们介绍了一种新颖的图像动画方法Cinemo,旨在实现更好的运动可控性以及更强的时空一致性和平滑性。总体上,我们提出了三种有效的策略,用于Cinemo的训练和推理阶段,以实现我们的目标。在训练阶段,Cinemo专注于学习运动残差的分布,而不是通过运动扩散模型直接预测下一个。此外,提出了一种基于结构相似性指数的策略,使Cinemo能够更好地控制运动强度。在推理阶段,引入了一种基于离散余弦变换的噪声细化技术,以减轻突然的运动变化。这三种策略使Cinemo能够产生高度一致、平滑和可控的结果。与以前的方法相比,Cinemo提供了更简单、更精确的用户可控性。通过多个指标对多个最先进的方法进行了广泛的实验,包括商业工具和研究方法,证明了我们提出的方法的有效性和优越性。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决图像动画中的一些挑战,包括如何保持空间-时间一致性以及如何确保动画的平滑性和运动可控性。
  • 关键思路
    Cinemo提出了三个有效策略来解决这些问题:在训练阶段,学习运动残差的分布,而不是直接预测下一个运动;使用基于结构相似性指数的策略来控制运动强度;在推理阶段,使用基于离散余弦变换的噪声细化技术来缓解突然的运动变化。
  • 其它亮点
    Cinemo相比其他方法提供了更简单、更精确的用户可控性。实验结果表明,Cinemo在多个指标上优于其他商业工具和研究方法。论文中还使用了多个数据集进行实验,同时提供了开源代码。
  • 相关研究
    最近的相关研究包括:《Diffusion Models Beat GANs on Image Synthesis》、《Motion Field to Image: Jointly Learning to Rigorously Optimize Data Fidelity and Transformability》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问