DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment

2024年06月27日
  • 简介
    最近的语音语言模型(SLMs)通常会结合预训练的语音模型以扩展大型语言模型(LLMs)的能力。在本文中,我们提出了一种描述性语音文本对齐方法,利用语音字幕来弥合语音和文本模态之间的差距,使SLMs能够解释和生成全面的自然语言描述,从而促进理解语音中的语言和非语言特征的能力。通过采用我们提出的方法进行增强,我们的模型在Dynamic-SUPERB基准测试中表现出优异的性能,特别是在推广到未见过的任务时。此外,我们发现对齐模型展示了零-shot指令跟随能力,无需显式的语音指令调整。这些发现突显了通过整合丰富的描述性语音字幕来重塑指令跟随SLMs的潜力。
  • 图表
  • 解决问题
    本文旨在通过提出一种描述性语音-文本对齐方法,利用语音字幕来弥合语音和文本模态之间的差距,使得语音模型能够理解和生成全面的自然语言描述,从而提高其理解语音中的语言和非语言特征的能力。
  • 关键思路
    本文提出了一种描述性语音-文本对齐方法,以便语音模型能够利用语音字幕来生成全面的自然语言描述。
  • 其它亮点
    本文提出的模型在Dynamic-SUPERB基准测试中表现出优异的性能,尤其是在泛化到未见过任务时。此外,作者还发现对齐模型表现出了零样本指令跟随能力,这些发现突显了通过结合丰富的描述性语音字幕来重塑指令跟随SLM的潜力。
  • 相关研究
    最近的研究表明,利用语音字幕进行语音-文本对齐已经成为一种有效的方法,以提高语音识别和语音生成的性能。相关论文包括:《Listen, Attend and Spell》、《Speech-to-Text Translation with Transformer》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论