Social Agent: Mastering Dyadic Nonverbal Behavior Generation via Conversational LLM Agents

2025年10月06日
  • 简介
    我们提出“社交智能体”(Social Agent),这是一种用于在双人对话中合成逼真且符合语境的伴随言语非语言行为的新颖框架。在该框架中,我们构建了一个由大语言模型(LLM)驱动的智能代理系统,用以引导对话流程,并为双方参与者确定恰当的交互行为。此外,我们提出了一种基于自回归扩散模型的新型双人手势生成模型,能够从语音信号中合成协调的动作。智能代理系统的输出被转化为对手势生成器的高层级指导,从而在行为和动作两个层面实现逼真的运动表现。更重要的是,该智能代理系统会周期性地观察对话双方的动作,并推断其意图,形成一个持续的反馈闭环,使两位参与者之间能够实现动态且富有响应性的互动。用户研究与定量评估结果表明,我们的模型显著提升了双人交互的质量,生成了自然、同步的非语言行为。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在双人对话中生成逼真且符合语境的伴随言语非语言行为(如手势)的问题。现有方法往往难以实现双方动作的协调性和上下文相关性,导致交互不够自然。这个问题在社交代理和虚拟人物领域尤为重要,但尚未被充分解决,具有较强的新颖性。
  • 关键思路
    提出Social Agent框架,利用大语言模型(LLM)作为‘智能体’来驱动对话流程并决策双方的互动行为,再通过基于自回归扩散模型的双人手势生成模型从语音信号合成协调的动作。关键创新在于将LLM的高层意图控制与低层运动生成结合,并引入基于动作反馈的意图推断闭环,实现动态响应的双向交互。
  • 其它亮点
    系统实现了从对话策略到具体动作的端到端协同生成;用户研究和定量评估均显示其在自然度和同步性上显著优于基线方法;支持对交互过程中的动作进行实时监控与意图推理,形成闭环反馈机制;虽然未明确提及开源代码,但使用了真实的双人对话语音-动作数据进行训练,实验设计合理且结果可信;未来可深入探索更多社会信号(如眼神、姿态)的建模以及在多智能体场景中的扩展应用。
  • 相关研究
    1. EmoGen: Emotion-Aware Co-Speech Gesture Synthesis with Hierarchical Transformer 2. GestureGAN for Co-Speech Gesture Generation 3. Learning Latent Representations for Style Controllable Speech-Driven Gesture Synthesis 4. HOMER: A Dataset and Baseline for Audio-Conditioned Human Motion Synthesis in Everyday Conversational Settings 5. Style-Controllable Speech-Driven Gesture Synthesis with Diffusion Models
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问