- 简介端到端的人体动画生成,例如由音频驱动的对话人物生成,在最近几年取得了显著的进步。然而,现有的方法仍然难以扩展为大型通用视频生成模型,限制了它们在实际应用中的潜力。在本文中,我们提出了OmniHuman,这是一种基于扩散变换器(Diffusion Transformer)的框架,通过在训练阶段混合运动相关条件来扩展数据规模。为此,我们引入了两种针对这些混合条件的训练原则,以及相应的模型架构和推理策略。这些设计使OmniHuman能够充分利用数据驱动的动作生成,最终实现高度逼真的人体视频生成。更重要的是,OmniHuman支持多种肖像内容(包括面部特写、半身像、全身像),支持对话和歌唱,处理人与物体的互动及复杂的肢体动作,并适应不同的图像风格。与现有的端到端音频驱动方法相比,OmniHuman不仅生成更真实的视频,还提供了更大的输入灵活性。它还支持多种驱动模式(音频驱动、视频驱动及组合驱动信号)。视频样本可在项目页面上查看(https://omnihuman-lab.github.io)。
- 图表
- 解决问题该论文试图解决现有端到端人类动画生成方法在扩展为大规模通用视频生成模型时遇到的挑战,特别是在真实应用中的局限性。这是一个新问题,因为虽然已有方法可以生成高质量的人类动画,但它们在处理多样化场景和输入灵活性方面仍显不足。
- 关键思路OmniHuman提出了一种基于扩散变换器(Diffusion Transformer)的框架,通过在训练阶段引入混合运动相关条件来扩展数据规模。与现有方法不同,OmniHuman不仅提高了视频的真实感,还增强了对不同输入内容的支持,包括多种肖像内容、动作和交互。这种设计使得模型能够更灵活地应对不同的应用场景。
- 其它亮点OmniHuman支持多种肖像内容(如面部特写、半身像、全身像),并且能够处理说话和唱歌的任务。此外,它还可以处理人与物体的互动以及复杂的姿势,并适应不同的图像风格。实验表明,OmniHuman相比现有的音频驱动方法生成了更真实的视频,同时提供了更大的输入灵活性。该研究还支持多模态驱动信号(音频驱动、视频驱动及组合信号)。项目页面提供了视频样本,且代码已开源,这为后续研究提供了宝贵资源。
- 近年来,在人类动画生成领域,有许多相关研究,例如:1.《Audio2Face: Learning to Animate Faces from Audio》;2.《Speech-Driven Facial Animation with Disentangled Expression and Identity》;3.《Learning to Generate Time-Lapse Videos Using Multi-Rate LSTMs》。这些研究主要集中在提高生成视频的质量或特定场景的应用上,而OmniHuman则进一步推动了这一领域的进展,尤其是在扩展性和灵活性方面。
沙发等你来抢
去评论
评论
沙发等你来抢