OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models

2025年02月03日
  • 简介
    端到端的人类动画生成,例如由音频驱动的说话人类生成,在最近几年取得了显著的进展。然而,现有的方法仍然难以扩展为大型通用视频生成模型,限制了它们在实际应用中的潜力。在本文中,我们提出了OmniHuman,这是一种基于扩散变换器(Diffusion Transformer)的框架,通过在训练阶段引入与动作相关的条件来扩展数据规模。为此,我们引入了两种针对这些混合条件的训练原则,以及相应的模型架构和推理策略。这些设计使OmniHuman能够充分利用数据驱动的动作生成,最终实现高度逼真的视频生成。 更重要的是,OmniHuman支持多种肖像内容(包括脸部特写、半身像、全身像),既支持对话也支持唱歌,还能处理人与物体的交互和复杂的肢体姿势,并适应不同的图像风格。与现有的端到端音频驱动方法相比,OmniHuman不仅生成的视频更加逼真,还提供了更大的输入灵活性。它还支持多种驱动模式(音频驱动、视频驱动及组合驱动信号)。视频样本可在项目页面上查看(https://omnihuman-lab.github.io)。
  • 图表
  • 解决问题
    该论文试图解决当前端到端人类动画生成方法在大规模视频生成模型中扩展性不足的问题,尤其是在真实应用场景中的局限性。这是一个需要进一步改进的老问题,但OmniHuman尝试通过新的框架来提供更广泛的解决方案。
  • 关键思路
    OmniHuman提出了一个基于扩散变换器(Diffusion Transformer)的框架,该框架通过在训练阶段混合运动相关条件来扩展数据规模。这一设计不仅提高了视频生成的真实性,还增强了系统的灵活性和适应性,使其能够处理多种类型的输入和场景,这是现有方法所不具备的能力。
  • 其它亮点
    OmniHuman支持多样的肖像内容(如脸部特写、半身像、全身像),并且可以处理对话和歌唱,以及复杂的人体姿态和人与物体的互动。此外,它兼容不同的图像风格,并支持音频驱动、视频驱动或两者结合的驱动模式。实验展示了其在多个维度上的优越性能。项目页面提供了视频样本,代码也已开源,为后续研究提供了基础。
  • 相关研究
    近期在这个领域中,其他相关的研究包括《Audio2Face: Learning to Animate Faces Using Large Self-supervised Data》和《Speech-Driven Facial Animation with Disentangled Expression and Identity》等。这些研究主要集中在提高面部表情的真实度和多样性上,而OmniHuman则进一步扩展到了全身动作和其他交互场景。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论