INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations

2024年12月05日
  • 简介
    想象一下与一个社交智能代理进行对话。它能够专心聆听你的话语,并迅速提供视觉和语言反馈。这种无缝互动使得多轮对话能够顺畅自然地进行。为了实现这一目标,我们提出了INFP,一种新的音频驱动头部生成框架,用于二人交互。与以往仅关注单向沟通或需要手动角色分配和显式角色切换的头部生成工作不同,我们的模型通过输入的二人音频引导,使代理肖像在说话和倾听状态之间动态交替。具体来说,INFP包括基于动作的头部模仿阶段和音频引导的动作生成阶段。第一阶段从现实生活中的对话视频中学习将面部交流行为投影到低维动作潜在空间,并使用动作潜在代码来动画化静态图像。第二阶段通过去噪学习从输入的二人音频到动作潜在代码的映射,从而在交互场景中实现音频驱动的头部生成。为了促进这一研究领域的发展,我们引入了DyConv,这是一个从互联网收集的大规模、丰富的二人对话数据集。大量的实验和可视化结果展示了我们方法的优越性能和有效性。项目页面:https://grisoon.github.io/INFP/。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解决在人机交互中实现自然流畅的双向对话问题,特别是如何让虚拟代理能够根据输入的音频动态地展示说话和倾听的状态,从而提供更真实、互动的交流体验。
  • 关键思路
    论文提出了一种名为INFP的新颖框架,该框架包括两个阶段:基于动作的头部模仿阶段和基于音频的动作生成阶段。这一方法不仅能够处理单向通信,还能通过输入的双向音频自动驱动代理头像在说话和倾听状态之间切换,无需手动角色分配或显式角色转换。
  • 其它亮点
    1. 引入了DyConv,一个大规模的双向对话数据集,用于促进这一领域的研究。 2. 通过广泛的实验和可视化展示了模型的有效性和优越性能。 3. 项目页面提供了详细的实验结果和开源代码,便于其他研究者复现和进一步研究。 4. 论文强调了模型在实际应用中的潜力,如虚拟助手、在线教育等。
  • 相关研究
    1. "Audio-Driven Facial Animation using Generative Adversarial Networks" 2. "Learning to Generate Faces from Speech using Cross-Modal Attention" 3. "Real-time Audio-Visual Interaction with Neural Talking Face Generation" 4. "Deep Audio-Visual Speech Recognition"
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问