MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance

简介

近年来，生成式人工智能在图像生成领域取得了显著进展，孕育了各种应用。然而，视频生成在可控性、视频长度和细节丰富性等方面仍面临着重大挑战，这些挑战阻碍了该技术的应用和普及。在本文中，我们提出了一个可控视频生成框架，名为MimicMotion，它可以生成高质量的任意长度视频，模仿特定的动作指导。与以往的方法相比，我们的方法有几个亮点。首先，我们引入了置信度感知姿势指导，确保高帧质量和时间平滑性。其次，我们引入了基于姿势置信度的区域损失放大，显著减少了图像失真。最后，为了生成长而平滑的视频，我们提出了渐进式潜在融合策略。通过这种方式，我们可以以可接受的资源消耗生成任意长度的视频。通过大量实验和用户研究，MimicMotion在各个方面都比以前的方法有了显著的改进。详细的结果和比较请参见我们的项目页面：https://tencent.github.io/MimicMotion。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决视频生成领域中的可控性、视频长度、细节丰富度等问题，以推动该技术的应用和普及。
关键思路

提出了一种名为MimicMotion的可控视频生成框架，通过引入置信度感知的姿势指导、基于置信度的区域损失放大和渐进潜变融合策略等关键思路，实现了高质量、任意长度的视频生成。
其它亮点

MimicMotion框架在多个方面展现出了显著的改进，如保证高帧质量和时间平滑的置信度感知姿势指导、显著减少图像失真的基于置信度的区域损失放大、实现任意长度视频生成的渐进潜变融合策略等。论文进行了大量实验和用户研究，并提供了相关数据集和开源代码。
相关研究

近期相关研究包括：《Video Generation from Text: A Survey》、《Adversarial Video Generation with Similarity-based Temporal Consistency》等。

MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance

提问交流

提问交流