- 简介人类视频生成是一项动态而快速发展的任务,旨在使用生成模型合成2D人体视频序列,给定控制条件如文本、音频和姿势。在电影、游戏和虚拟通信等各种广泛应用的潜力下,生成自然逼真的人类视频至关重要。最近生成模型的进展为该领域的发展奠定了坚实的基础。尽管取得了显著进展,但人类视频生成的任务仍然具有挑战性,这是由于人物形象的一致性、人体运动的复杂性以及与环境的关系的困难所致。本文综述了当前人类视频生成领域的现状,据我们所知,这是该领域的首次广泛文献综述。我们从介绍人类视频生成的基础知识和促进该领域发展的生成模型的演变开始。然后,我们考察了在人类视频生成中使用的主要方法,包括基于文本、音频和姿势驱动的运动生成。这些领域是根据指导生成过程的条件进行探讨的。此外,我们提供了最常用的数据集集合和评估度量,这些度量对于评估生成视频的质量和逼真程度至关重要。本文综述以讨论该领域当前的挑战并提出未来研究的可能方向作为结论。本文的目标是为研究界提供一个清晰而全面的人类视频生成进展视角,突出取得的里程碑和未来的挑战。
- 图表
- 解决问题人类视频生成任务是一个动态且快速发展的任务,旨在根据文本、音频和姿态等控制条件,使用生成模型合成2D人体视频序列。本文旨在提供对当前人类视频生成领域的全面评估。
- 关键思路本文综述了当前人类视频生成领域的最新进展,包括文本驱动、音频驱动和姿态驱动等三个子任务的主要方法,以及评估生成视频质量和逼真度的数据集和指标。
- 其它亮点本文提供了全面的研究综述和最新进展,为研究人员提供了清晰和全面的视角。此外,本文还介绍了常用的数据集和评估指标,并探讨了当前领域面临的挑战和未来研究方向。
- 最近的相关研究包括:《Generative Adversarial Networks》、《Image-to-Image Translation with Conditional Adversarial Networks》、《Dance Revolution: Long-term Dance Generation with Music via Curriculum Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢