- 简介语音语言模型(SLMs)在口语理解方面已取得显著进展。然而,这些模型是否能够同时感知非词汇性声音线索与口语内容,并根据情感和语境因素作出共情回应,目前仍不明确。现有的评测基准通常孤立地评估语言、声学、推理或对话能力,忽视了这些能力的整合——而这对于实现类人且具备情感智能的对话至关重要。我们提出了EchoMind,这是首个相互关联、多层级的基准测试,通过一系列顺序衔接、上下文关联的任务来模拟共情对话的认知过程:口语内容理解、声音线索感知、综合推理以及回应生成。所有任务均基于完全相同且语义中立的脚本,脚本本身不含明确的情感或语境提示,而仅通过受控的声音风格变化来独立检验语音表达方式的影响。EchoMind建立在一个以共情为导向的框架之上,涵盖3个宏观维度和12个细粒度维度,包含39种声音属性,并采用客观与主观指标相结合的方式进行评估。对12种先进SLM的测试表明,即使是当前最先进的模型,在处理高表现力的声音线索时仍存在困难,从而限制了其共情回应的质量。对提示强度、语音来源以及理想声音线索识别的分析揭示出,现有模型在遵循指令、应对自然语音变异的鲁棒性,以及有效利用声音线索实现共情方面仍存在持续性的弱点。这些结果凸显出亟需开发能够将语言内容与多样化声音线索深度融合的语音语言模型,以实现真正意义上的共情对话能力。
-
- 图表
- 解决问题当前的语音语言模型(SLMs)虽然在口语理解方面取得进展,但尚不清楚它们是否能像人类一样同时感知非词汇性声音线索(如语调、情感表达)并结合上下文生成共情回应。现有评测基准通常孤立地评估语言、声学或推理能力,缺乏对多模态、多层次共情对话所需的综合能力的系统性评估。这是一个尚未被充分探索的新问题,尤其是在情感智能与语音交互深度融合的背景下。
- 关键思路提出EchoMind——首个模拟人类共情认知过程的多层级、关联性评测基准,通过使用语义中立的脚本和受控的语音风格变化,分离文本内容与非词汇性声音线索的影响,系统评估SLMs在语音内容理解、声音线索感知、综合推理和回应生成四个连续任务中的表现,强调语言与声学信息的整合能力对共情对话的重要性。
- 其它亮点实验设计严谨:所有任务共享语义中立脚本,仅通过语音风格变化引入情感差异;构建了涵盖3个粗粒度和12个细粒度维度、共39种声音属性的共情导向框架;采用主客观结合的评估方式;测试了12种先进SLM,发现即使最先进的模型在高表现力语音线索识别上仍表现不佳;揭示了模型在指令遵循、自然语音鲁棒性和有效利用声音线索方面的系统性缺陷;代码与数据集已开源,为后续研究提供基础。
- 1. SpeechPrompt: Evaluating the Instruction-Tuning Ability of Speech Language Models in Spoken Dialogue 2. VoiceBench: A Multi-task Benchmark for Evaluating Spoken Language Understanding Models 3. EmoReact: A Framework for Emotional Contagion and Response in Conversational AI 4. Towards Emotion-Aware Dialogue Systems: A Multimodal Approach Using Paralinguistic Cues 5. SLUE-ATC: A Benchmark for Spoken Language Understanding with Emphasis on Acoustic-Textual Consistency
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流