MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance

2024年06月28日
  • 简介
    近年来,生成式人工智能在图像生成领域取得了显著进展,孕育了各种应用。然而,视频生成在可控性、视频长度和细节丰富性等方面仍面临着重大挑战,这些挑战阻碍了该技术的应用和普及。在本文中,我们提出了一个可控视频生成框架,名为MimicMotion,它可以生成高质量的任意长度视频,模仿特定的动作指导。与以往的方法相比,我们的方法有几个亮点。首先,我们引入了置信度感知姿势指导,确保高帧质量和时间平滑性。其次,我们引入了基于姿势置信度的区域损失放大,显著减少了图像失真。最后,为了生成长而平滑的视频,我们提出了渐进式潜在融合策略。通过这种方式,我们可以以可接受的资源消耗生成任意长度的视频。通过大量实验和用户研究,MimicMotion在各个方面都比以前的方法有了显著的改进。详细的结果和比较请参见我们的项目页面:https://tencent.github.io/MimicMotion。
  • 作者讲解
  • 图表
  • 解决问题
    解决视频生成领域中的可控性、视频长度、细节丰富度等问题,以推动该技术的应用和普及。
  • 关键思路
    提出了一种名为MimicMotion的可控视频生成框架,通过引入置信度感知的姿势指导、基于置信度的区域损失放大和渐进潜变融合策略等关键思路,实现了高质量、任意长度的视频生成。
  • 其它亮点
    MimicMotion框架在多个方面展现出了显著的改进,如保证高帧质量和时间平滑的置信度感知姿势指导、显著减少图像失真的基于置信度的区域损失放大、实现任意长度视频生成的渐进潜变融合策略等。论文进行了大量实验和用户研究,并提供了相关数据集和开源代码。
  • 相关研究
    近期相关研究包括:《Video Generation from Text: A Survey》、《Adversarial Video Generation with Similarity-based Temporal Consistency》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问