MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

向作者提问

NEW

简介

我们提出了MOFA-Video，这是一种先进的可控图像动画方法，它利用各种附加的可控信号（例如人类地标参考、手动轨迹和另一个提供的视频）或它们的组合从给定的图像生成视频。这与先前的方法不同，先前的方法只能在特定的运动域上工作，或者在扩散先验方面显示出弱的控制能力。为了实现我们的目标，我们设计了几个领域感知的运动场适配器（即，MOFA-适配器）来控制视频生成流程中生成的动作。对于MOFA-适配器，我们考虑视频的时间运动一致性，并首先从给定的稀疏控制条件生成密集的运动流，然后将给定图像的多尺度特征包装为稳定的视频扩散生成的引导特征。我们单独训练了两个运动适配器，分别用于手动轨迹和人类地标，因为它们都包含关于控制的稀疏信息。训练后，不同领域的MOFA-适配器也可以共同工作，以实现更可控的视频生成。项目页面：https://myniuuu.github.io/MOFA_Video/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

MOFA-Video试图解决的问题是如何从给定的图像生成视频，并使用各种额外的可控信号来控制生成的视频，这与以前的方法不同，以前的方法只能在特定的运动域中工作或显示扩散先验的弱控制能力。
关键思路

论文的关键思路是设计几个领域感知的运动场适配器（即MOFA-Adapters）来控制视频生成管道中生成的运动，考虑视频的时间运动一致性，首先从给定的稀疏控制条件生成密集的运动流，然后将给定图像的多尺度特征包装为稳定的视频扩散生成的引导特征。
其它亮点

论文设计了MOFA-Video方法，可以从给定的图像生成视频，并使用各种额外的可控信号来控制生成的视频，如人类地标参考、手动轨迹和另一个提供的视频等。论文设计了多个领域感知的运动场适配器（即MOFA-Adapters）来控制生成的运动。论文在手动轨迹和人类地标方面训练了两个运动适配器，这两个适配器都包含有关控制的稀疏信息。实验使用了多个数据集，并且在项目页面上提供了开源代码。
相关研究

最近在这个领域中，还有一些相关的研究，如：1）Deep Video Portraits；2）Everybody Dance Now；3）Liquid Warping GAN；4）MoCoGAN；5）Dance with Words。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问