WildSpeech-Bench: Benchmarking Audio LLMs in Natural Speech Conversation

2025年06月27日
  • 简介
    近期的多模态大语言模型(LLMs)如 GPT-4o 展现出了强大的直接语音交互能力。然而,目前缺乏专门且全面的端到端语音 LLM 评估基准,这阻碍了音频大语言模型在实际应用中用户体验的优化。现有的评估方法通常沿用基于文本的基准测试,忽略了语音所具有的独特特征和挑战,包括语调、同音词、口吃以及用户期望的差异等。本文提出了一种全新的方法,用于在实际语音对话场景中对大语言模型进行全方位评估。我们系统地整理了与语音场景相关的实际对话数据,引入说话人属性和声学条件的多样性,并通过语音特有的现象对数据集进行了增强。此外,我们还设计了一种“查询感知”的评估方法,利用定制化的评估清单和提示语来提升自动评估的准确性。我们对多种主流语音模型进行了全面测试与深入分析,揭示了不同语音场景下模型表现的显著差异。“查询感知”评估方法进一步实现了在各类语音专属场景下的细粒度评估。我们的基准测试可以为语音模型的开发与评估提供有价值的参考与指导。
  • 作者讲解
  • 图表
  • 解决问题
    当前多模态大语言模型(如GPT-4o)在语音交互方面展现出强大能力,但缺乏专门且全面的端到端语音LLM评估基准,导致难以优化实际应用中的用户体验。现有方法主要借用文本基准,忽略了语音独有的特性与挑战。
  • 关键思路
    论文提出了一种新的语音LLM评估方法,通过系统收集真实对话数据、引入说话人属性和声学条件多样性,并结合语音特有现象进行增强。同时设计了基于查询感知的评估方式,使用定制化检查清单和提示提升自动评估准确性。
  • 其它亮点
    1. 构建了一个贴近现实应用场景的语音对话评估数据集 2. 考虑了语音特有的现象如语调、同音词、口吃等 3. 提出查询感知的评估框架,实现更细粒度的性能分析 4. 对主流语音模型进行了详尽测试与深入分析 5. 为未来语音LLM开发与优化提供了实用指南
  • 相关研究
    1. SpeechBrain: A General-Purpose Speech Processing Toolkit (2021) 2. Wav2Vec 2.0: A Framework for Speech Representation Learning (2020) 3. ESPnet: End-to-End Speech Processing Toolkit (2018) 4. Whisper: Robust Speech Recognition via Large-Scale Weak Supervision (2023) 5. Evaluating the Performance of End-to-End Speech Recognition Systems in Noisy Environments (2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问