- 简介音频驱动的人类动画方法,例如会说话的头部和会说话的身体生成,在生成同步的面部动作和吸引人的视觉质量视频方面取得了显著进展。然而,现有的方法主要集中在单人动画上,在处理多声道音频输入时遇到困难,面临音频与人物之间的错误绑定问题。此外,这些方法在遵循指令的能力上也存在局限性。为了解决这一问题,本文提出了一项新任务:多人对话视频生成,并引入了一个新的框架——MultiTalk,以应对多人生成过程中的挑战。具体来说,在音频注入方面,我们研究了几种方案,并提出了标签旋转位置嵌入(L-RoPE)方法来解决音频与人物绑定的问题。此外,在训练过程中,我们发现部分参数训练和多任务训练对于保持基础模型的指令跟随能力至关重要。MultiTalk在多个数据集上(包括会说话的头部、会说话的身体以及多人数据集)的表现优于其他方法,展示了我们方法的强大生成能力。
- 图表
- 解决问题论文试图解决多音频流输入下的多人动画生成问题,特别是音频与人物绑定不准确以及模型指令跟随能力不足的问题。这是一个相对较新的问题,尤其是在多任务和多角色生成领域。
- 关键思路论文提出了一种名为MultiTalk的新框架,通过Label Rotary Position Embedding(L-RoPE)方法解决音频与人物的绑定问题,并在训练过程中引入部分参数训练和多任务学习策略以增强模型的指令跟随能力。这种方法在多人动画生成领域具有创新性,特别是在处理多音频输入方面。
- 其它亮点论文设计了多种实验来验证MultiTalk在不同数据集上的表现,包括单人头部动画、单人全身动画和多人数据集。实验结果表明,该方法在同步性和视觉质量上优于现有方法。此外,作者开源了代码和预训练模型,为后续研究提供了便利。值得进一步研究的方向包括更复杂的场景交互和实时生成能力。
- 近期相关研究包括:1)「Audio2Face」系列工作,专注于单人面部动画生成;2)「Speech-Driven Full Body Animation」,关注基于语音的全身动画生成;3) 「Talking Face Generation with Disentangled Expression and Identity」,探索身份与表情解耦的生成方法。这些研究主要集中在单人场景,而本论文则扩展到了多人场景。
沙发等你来抢
去评论
评论
沙发等你来抢