报告主题:AI能听懂你的情绪了?首个共情语音评测基准

报告日期:04月22日(周三) 10:30-11:30

报告要点:

语音大模型在口语理解上进展迅速,但能否同时理解语言内容与语音中的情绪线索并做出共情回应,仍是开放问题。智源Talk 357期邀请了香港中文大学(深圳)周莉线上分享,工作来自ICLR 2026收录论文《EchoMind: An Interrelated Multi-Level Benchmark for Evaluating Empathetic Speech Language Models》。提出了首个用于评估共情型语音语言模型的多层级关联基准,通过相互关联的任务模拟共情对话的认知过程,为系统评估语音模型的情感智能提供了新范式,揭示了当前模型在高表现力语音理解方面的关键挑战。欢迎大家一起讨论交流。

议题详情:

语音大模型(Speech Language Models, SLMs)在口语理解方面取得了快速进展,但它们是否能够像人类一样同时理解语言内容和语音中的情绪线索,并做出真正具有共情能力的回应,仍然是一个开放问题。现有评测通常分别关注语言理解、声学信息或对话能力,缺乏对这些能力协同作用的系统评估。在本次报告中,我将介绍 EchoMind——首个用于评估共情型语音语言模型的多层级关联基准。EchoMind 通过一系列相互关联的任务模拟共情对话的认知过程,包括语音内容理解、语音情绪线索感知、信息整合推理以及共情回应生成。该基准基于统一且语义中性的脚本构建,并通过控制语音表达方式来分析语音线索对模型理解与回应的影响。我们对12个先进的语音语言模型进行了系统评测。结果表明,即使是当前最先进的模型,在理解高表现力语音线索并生成恰当的共情回应方面仍存在明显挑战。本报告将进一步分析这些模型在语音线索利用、指令遵循以及自然语音鲁棒性方面的关键问题,并讨论构建真正具备情感智能的语音对话系统的未来方向。

报告嘉宾:


周莉,香港中文大学(深圳)博士后,目前的研究主要聚焦于语音大模型,包括类人语音交互、具备情感智能的对话系统以及语音可控生成。同时,也关注以人为中心的自然语言处理、NLP中的文化因素、大语言模型偏见以及AIGC检测等相关研究问题。


电脑端观看地址


更多热门活动:

内容中包含的图片若涉及版权问题,请及时与我们联系删除