Wan-Animate: Unified Character Animation and Replacement with Holistic Replication

向作者提问

NEW

简介

我们提出Wan-Animate，这是一个用于角色动画生成与替换的统一框架。给定一张角色图像和一段参考视频，Wan-Animate能够通过精确复现视频中角色的表情和动作，生成高保真的角色动画视频。此外，它还可以将生成的动画角色融入参考视频中，替换原始角色，并复现场景的光照与色彩色调，从而实现与环境的无缝融合。Wan-Animate基于Wan模型构建。为了适配角色动画任务，我们采用了一种改进的输入范式，以区分参考条件与生成区域，该设计将多种任务统一到一种通用的符号化表示之中。我们利用空间对齐的骨骼信号来复现身体动作，并从源图像中提取隐式的面部特征以重现表情，从而实现高度可控且富有表现力的角色视频生成。此外，为了增强角色替换时的环境融合效果，我们开发了一个辅助性的重打光LoRA（Relighting LoRA）模块。该模块在保持角色外观一致的同时，能够准确应用目标场景的光照与色彩风格。实验结果表明，Wan-Animate在性能上达到了当前最优水平。我们承诺将公开模型权重及源代码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决人物角色动画生成与替换中的高保真度、可控性和环境融合问题。具体包括如何将静态人物图像驱动为具有丰富表情和动作的视频，以及如何将新生成的角色无缝融入参考视频场景中（如光照、色调匹配）。这个问题在虚拟人、影视制作等领域具有重要应用，虽然已有部分研究，但实现高质量、统一框架下的动画生成与替换仍是一个较新的挑战。
关键思路

Wan-Animate基于Wan模型，提出一种统一的输入范式，区分参考条件与生成区域，将角色动画与替换任务统一建模。通过空间对齐的骨骼信号控制身体动作，利用源图像提取的隐式面部特征重现表情，实现高可控性和表现力。此外，引入辅助的Relighting LoRA模块，在保持角色外观一致性的同时，迁移场景光照与色彩风格，增强合成结果的自然融合能力。其创新在于多任务统一架构设计与解耦控制机制。
其它亮点

使用空间对齐骨架控制动作，结合隐式面部特征实现表情重演；提出Relighting LoRA提升环境整合效果；实验表明该方法在生成质量与真实感上达到SOTA水平；作者承诺开源模型权重与源代码，促进社区复现与后续研究；实验设计涵盖多种复杂场景与人物类型，验证了方法鲁棒性。
相关研究

近期相关工作包括：《Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation》提出的基于点扩散的动画方法；《MagicAnimate: Semantic-Aware Human Image Animation with Diffusion Models》利用语义感知进行人体动画；《DragNUWA: Motion Control through Point Dragging for Video Generation》探索拖拽点控制视频生成；《EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio关注音频驱动的表情生成；以及《DreamPose: Learning Pose Conditional Priors for Person Image Animation》早期基于姿态条件先验的图像动画方法。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问