BLSP-Emo: Towards Empathetic Large Speech-Language Models

2024年06月06日
  • 简介
    最近发布的GPT-4o展示了端到端多模态模型的潜力,不仅在低延迟方面,而且在理解和生成带有丰富情感的表达性语音方面也具有能力。虽然细节对于开放的研究社区来说是未知的,但它很可能涉及大量的策划数据和计算,这两者都不容易获得。在本文中,我们提出了BLSP-Emo(带有情感支持的引导式语音-语言预训练),这是一种新的方法,用于开发能够理解语音中的语义和情感,并生成有同理心的回应的端到端语音-语言模型。BLSP-Emo通过两个阶段的过程利用现有的语音识别(ASR)和语音情感识别(SER)数据集。第一阶段侧重于语义对齐,遵循最近使用ASR数据预训练语音-语言模型的工作。第二阶段使用来自SER数据的情感感知连续任务对预训练的语音-语言模型进行情感对齐。我们的实验表明,BLSP-Emo模型在理解语音和提供有同理心的回应方面表现出色,无论是在遵循指令的任务还是对话中。
  • 图表
  • 解决问题
    本文旨在开发一种能够理解语音中的语义和情感,并生成具有共情能力的响应的端到端语音-语言模型。这是否是一个新问题?
  • 关键思路
    BLSP-Emo是一种新颖的方法,通过利用现有的语音识别(ASR)和语音情感识别(SER)数据集,通过两个阶段的过程来构建模型。第一阶段集中于语义对齐,第二阶段在SER数据上使用预训练的语音-语言模型进行情感对齐。
  • 其它亮点
    实验表明,BLSP-Emo模型在理解语音和提供共情响应方面表现出色,无论是在指令遵循任务还是对话中。本文的亮点包括使用现有数据集进行预训练,实现语义和情感对齐,以及在情感感知任务中使用预训练模型。
  • 相关研究
    最近的相关研究包括GPT-4o的发布,以及使用ASR数据进行预训练的最新工作。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论