RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild

2025年04月21日
  • 简介
    可控的角色动画仍然是一个具有挑战性的问题,尤其是在处理罕见姿态、风格化角色、角色与物体的交互、复杂光照以及动态场景时。为了解决这些问题,以往的研究主要集中在通过复杂的旁路网络注入姿态和外观指导信息,但在开放世界场景中的泛化能力往往不足。在本文中,我们提出了一种新的视角:只要基础模型足够强大,通过简单的模型修改并结合灵活的微调策略,就可以有效应对上述挑战,从而向野外环境下的可控角色动画迈进一步。具体来说,我们引入了 RealisDance-DiT,该模型基于 Wan-2.1 视频基础模型构建。我们的深入分析表明,广泛采用的 Reference Net 设计对于大规模 DiT 模型而言并非最优选择。相反,我们证明对基础模型架构进行最小改动即可获得一个令人惊讶的强大基线。此外,我们提出了低噪声预热和“大批次小迭代”策略,在微调过程中加速模型收敛的同时最大程度地保留基础模型的先验知识。另外,我们还引入了一个新的测试数据集,该数据集捕捉了多样化的现实世界挑战,补充了现有的基准数据集(如 TikTok 数据集和 UBC 时尚视频数据集),以全面评估所提出的方法。大量实验结果表明,RealisDance-DiT 在性能上大幅超越现有方法。
  • 图表
  • 解决问题
    论文试图解决开放世界中可控角色动画生成的问题,特别是在处理罕见姿势、风格化角色、角色与物体交互、复杂光照和动态场景时的挑战。这是一个长期存在的问题,但该研究尝试在更广泛的现实场景中验证模型的有效性。
  • 关键思路
    相比以往通过复杂旁路网络注入姿态和外观指导的方法,本文提出只要基础模型足够强大,通过简单的架构修改和灵活的微调策略即可应对上述挑战。具体而言,论文基于Wan-2.1视频基础模型构建了RealisDance-DiT,并提出了低噪声预热和‘大批次小迭代’的微调策略以加速收敛并保留基础模型的先验知识。
  • 其它亮点
    1. 提出了对大规模DiT模型中广泛使用的Reference Net设计的改进,证明了最小架构修改的有效性;2. 引入了一个新的测试数据集,涵盖更多真实世界的挑战,弥补了现有基准(如TikTok数据集和UBC时尚视频数据集)的不足;3. 实验表明,所提方法显著优于现有方法;4. 论文代码已开源,便于后续研究者复现结果;5. 值得进一步研究的方向包括如何扩展到更高分辨率的视频生成以及探索其他基础模型的潜力。
  • 相关研究
    近期相关研究包括:1. 「Controllable Video Generation with Pose and Appearance Guidance」,探讨了通过复杂网络结构实现可控视频生成的方法;2. 「Dancing to Music: Learning Latent Choreography with Music-conditioned Dance Diffusion Models」,专注于音乐条件下的舞蹈生成;3. 「Large-scale Video Foundation Models for Controllable Animation」,研究了大规模视频基础模型在可控动画中的应用。这些工作大多依赖于复杂的架构设计,而本文则强调基础模型能力和简单调整的重要性。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论