- 简介我们提出Wan-Animate,这是一个用于角色动画生成与替换的统一框架。给定一张角色图像和一段参考视频,Wan-Animate能够通过精确复现视频中角色的表情和动作,生成高保真的角色动画视频。此外,它还可以将生成的动画角色融入参考视频中,替换原始角色,并复现场景的光照与色彩色调,从而实现与环境的无缝融合。Wan-Animate基于Wan模型构建。为了适配角色动画任务,我们采用了一种改进的输入范式,以区分参考条件与生成区域,该设计将多种任务统一到一种通用的符号化表示之中。我们利用空间对齐的骨骼信号来复现身体动作,并从源图像中提取隐式的面部特征以重现表情,从而实现高度可控且富有表现力的角色视频生成。此外,为了增强角色替换时的环境融合效果,我们开发了一个辅助性的重打光LoRA(Relighting LoRA)模块。该模块在保持角色外观一致的同时,能够准确应用目标场景的光照与色彩风格。实验结果表明,Wan-Animate在性能上达到了当前最优水平。我们承诺将公开模型权重及源代码。
-
- 图表
- 解决问题论文试图解决人物角色动画生成与替换中的高保真度、可控性和环境融合问题。具体包括如何将静态人物图像驱动为具有丰富表情和动作的视频,以及如何将新生成的角色无缝融入参考视频场景中(如光照、色调匹配)。这个问题在虚拟人、影视制作等领域具有重要应用,虽然已有部分研究,但实现高质量、统一框架下的动画生成与替换仍是一个较新的挑战。
- 关键思路Wan-Animate基于Wan模型,提出一种统一的输入范式,区分参考条件与生成区域,将角色动画与替换任务统一建模。通过空间对齐的骨骼信号控制身体动作,利用源图像提取的隐式面部特征重现表情,实现高可控性和表现力。此外,引入辅助的Relighting LoRA模块,在保持角色外观一致性的同时,迁移场景光照与色彩风格,增强合成结果的自然融合能力。其创新在于多任务统一架构设计与解耦控制机制。
- 其它亮点使用空间对齐骨架控制动作,结合隐式面部特征实现表情重演;提出Relighting LoRA提升环境整合效果;实验表明该方法在生成质量与真实感上达到SOTA水平;作者承诺开源模型权重与源代码,促进社区复现与后续研究;实验设计涵盖多种复杂场景与人物类型,验证了方法鲁棒性。
- 近期相关工作包括:《Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation》提出的基于点扩散的动画方法;《MagicAnimate: Semantic-Aware Human Image Animation with Diffusion Models》利用语义感知进行人体动画;《DragNUWA: Motion Control through Point Dragging for Video Generation》探索拖拽点控制视频生成;《EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio关注音频驱动的表情生成;以及《DreamPose: Learning Pose Conditional Priors for Person Image Animation》早期基于姿态条件先验的图像动画方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流