- 简介在肖像视频生成领域,使用单张图片生成肖像视频越来越普遍。常见的方法是利用生成模型增强控制生成的适配器。然而,控制信号(例如文本、音频、参考图像、姿势、深度图等)的强度可能会有所不同。其中,较弱的条件往往会因为较强的条件的干扰而难以有效,这在平衡这些条件方面带来了挑战。在我们的肖像视频生成工作中,我们发现音频信号特别弱,经常被面部姿势和参考图像等强信号所掩盖。然而,直接使用弱信号进行训练往往会导致收敛困难。为了解决这个问题,我们提出了V-Express,一种通过渐进式训练和条件丢弃操作平衡不同控制信号的简单方法。我们的方法逐渐使弱条件有效地控制生成,从而实现同时考虑面部姿势、参考图像和音频的生成能力。实验结果表明,我们的方法可以有效地生成由音频控制的肖像视频。此外,我们还为同时有效地使用不同强度条件提供了一种潜在的解决方案。
-
- 图表
- 解决问题本篇论文旨在解决肖像视频生成中控制条件强弱不一所带来的挑战,特别是对于音频这种相对较弱的控制信号。同时,本篇论文也试图提出一种新的方法来使得这些不同强度的控制条件能够同时有效地被利用。
- 关键思路本文提出了一种名为V-Express的方法,通过渐进式训练和条件dropout操作来平衡不同的控制信号,逐步使得相对较弱的条件能够有效控制生成过程。这种方法在音频控制下的肖像视频生成方面表现出色。
- 其它亮点本文的实验结果表明,V-Express方法可以有效地控制音频生成肖像视频。此外,本文提出的方法为同时利用不同强度条件的控制问题提供了潜在的解决方案。
- 与本文相关的研究包括:1.《Generative Adversarial Networks for Video Generation and Reconstruction》;2.《Audio-Driven Facial Animation by Joint End-to-End Learning of Pose and Emotion》;3.《Deep Audio-Visual Generation》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流