AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

解决问题:该论文旨在解决文本到图像模型的动画生成问题,以及在不需要特定调整的情况下,为现有的个性化文本到图像模型提供动画效果。这是否是一个新问题?是的,该论文提出的动画生成方案是针对现有问题的创新解决方案。

关键思路:该论文的关键思路是将新的运动建模模块插入到已有的文本到图像模型中,通过训练视频剪辑来提取合理的运动先验知识。一旦训练完成,只需注入这个运动建模模块,所有从相同基础T2I派生出的个性化版本都能够产生各种各样的动画图像。相比当前领域的研究状况,该论文的思路创新之处在于提供了一种通用的动画生成方案,而不需要特定的调整。

其他亮点:该论文的实验采用了多个公共的个性化文本到图像模型,并展示了该框架如何帮助这些模型生成具有时间平滑性的动画片段,同时保留了它们的输出领域和多样性。该论文的代码和预训练权重将公开发布。

关于作者:主要作者包括Guo Yuwei、Yang Ceyuan、Rao Anyi、Wang Yaohui、Qiao Yu和Lin Dahua,他们分别来自清华大学、香港中文大学和香港科技大学。他们之前的代表作包括《Generative Adversarial Nets》、《Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles》等。

相关研究:近期其他相关的研究包括《DreamBooth: Unconstrained Face Generation with GAN》(作者:Yujun Shen等,机构:UC Berkeley)、《LoRA: Latent Optimization for Representation Alignment》(作者:Zhengxiong Luo等,机构:清华大学)、《Stable Diffusion: A New Approach to Train GANs with Improved Stability》(作者:Yifan Jiang等,机构:香港中文大学)。

论文摘要:随着文本到图像模型(例如Stable Diffusion)和相应的个性化技术(如DreamBooth和LoRA)的不断发展,每个人都可以以可负担得起的成本将他们的想象体现为高质量的图像。因此,对于进一步将生成的静态图像与动态运动相结合的图像动画技术有着巨大的需求。在本报告中,我们提出了一个实用的框架,一劳永逸地为大多数现有的个性化文本到图像模型提供动画效果,节省了针对特定模型调整的工作。所提出的框架的核心是将一个新初始化的运动建模模块插入到冻结的文本到图像模型中,并在视频剪辑上对其进行训练,以提炼合理的运动先验知识。一旦训练完成,通过简单地注入此运动建模模块,所有从同一基础T2I派生的个性化版本都可以成为产生多样化和个性化动画图像的文本驱动模型。我们在动漫图片和逼真的照片中对几个公共代表性个性化文本到图像模型进行了评估,并证明我们提出的框架有助于这些模型生成时间上平滑的动画剪辑,同时保留其输出的领域和多样性。代码和预训练权重将在https://animatediff.github.io/上公开提供。

内容中包含的图片若涉及版权问题,请及时与我们联系删除