- 简介语音包含丰富的信息,包括但不限于内容、语音附加信息和环境信息。这种全面性显著影响了交流,对于人机交互至关重要。以其通用的辅助功能而闻名的聊天型大型语言模型(LLM)已经发展到可以处理包括语音在内的多模态输入。虽然这些模型可以熟练识别和分析语音,但它们经常无法生成适当的响应。我们认为这是由于缺乏任务定义和模型开发原则所致,这需要适用于模型评估的开源数据集和度量标准。为了弥合这一差距,我们提出了SD-Eval,这是一个旨在多维度评估口语对话理解和生成的基准数据集。SD-Eval关注语音附加信息和环境信息,包括7303个话语,相当于8.76小时的语音数据。该数据集是从八个公共数据集汇总而来,代表了四个视角:情感、口音、年龄和背景声音。为了评估SD-Eval基准数据集,我们实现了三种不同的模型,并构建了一个类似于SD-Eval的训练集。训练集包含1052.72小时的语音数据和724.4k个话语。我们还使用客观评估方法(例如BLEU和ROUGE)、主观评估和基于LLM的度量对生成的响应进行了全面评估。使用语音附加信息和环境信息作为条件的模型在客观和主观指标上均优于其对应的模型。此外,实验表明,相对于传统指标,基于LLM的度量与人类评估具有更高的相关性。我们在https://github.com/amphionspace/SD-Eval上开源了SD-Eval。
- 图表
- 解决问题论文旨在解决Chat-Oriented Large Language Models (LLMs)在语音识别和分析方面表现优秀,但在生成适当回应方面表现不佳的问题。作者认为这是由于缺乏任务定义和模型开发原则所致,需要开源数据集和适合模型评估的度量标准。
- 关键思路为了弥补这一差距,作者提出了SD-Eval,这是一个基于多维度评估口语对话理解和生成的基准数据集。该数据集集中在语音的语调和环境信息方面,并包括从八个公共数据集中聚合的7,303个话语,总计8.76小时的语音数据。
- 其它亮点为了评估SD-Eval基准数据集,作者实现了三种不同的模型,并构建了一个类似于SD-Eval的训练集。该训练集包含1,052.72小时的语音数据和724.4k个话语。作者还使用了客观评估方法(如BLEU和ROUGE)、主观评估和基于LLM的指标来进行全面评估。实验结果表明,使用语调和环境信息进行条件的模型在客观和主观指标上都优于其对应模型。此外,实验还表明,与传统指标相比,基于LLM的指标与人类评估的相关性更高。作者在https://github.com/amphionspace/SD-Eval上开源了SD-Eval。
- 在最近的相关研究中,还有一些关于Chat-Oriented Large Language Models的研究。例如,题为“DialoGPT: Large-Scale Generative Dialogue Modeling”的论文。
沙发等你来抢
去评论
评论
沙发等你来抢