Advancing Multi-talker ASR Performance with Large Language Models

2024年08月30日
  • 简介
    在对话场景中识别多个说话者的重叠语音是自动语音识别(ASR)中最具挑战性的问题之一。串行输出训练(SOT)是一种经典的解决多说话者ASR的方法,其思想是根据他们的发言时间连接多个说话者的转录进行训练。然而,SOT风格的转录取决于建模长上下文,在对话中连接多个相关话语。因此,与传统方法主要强调注意力机制编码器性能的注意力机制编码器-解码器(AED)架构相比,一种利用大型语言模型(LLMs)的新方法,利用预训练解码器的能力,可能更适合这种复杂和具有挑战性的场景。本文提出了一种基于LLM的SOT方法,利用预训练语音编码器和LLM,在多说话者数据集上使用适当的策略进行微调。实验结果表明,我们的方法在模拟数据集LibriMix上超越了传统的AED-based方法,并在真实数据集AMI的评估集上实现了最先进的性能,在之前的工作中,我们的模型比使用1000倍有监督数据训练的AED模型表现更好。
  • 图表
  • 解决问题
    解决多说话人语音识别中的交叠语音识别问题
  • 关键思路
    提出了基于大语言模型的串行输出训练方法,利用预训练的语音编码器和大语言模型,通过适当的 fine-tuning 在多说话人数据集上训练,取得了比传统方法更好的性能
  • 其它亮点
    实验结果表明,该方法在模拟数据集 LibriMix 上超越了传统的基于注意力机制的编码器-解码器模型,在实际数据集 AMI 上实现了最优性能,优于之前使用 1000 倍有监督数据训练的 AED 模型。论文提供了开源代码。
  • 相关研究
    相关研究包括:1)基于注意力机制的编码器-解码器模型;2)利用深度学习进行多说话人语音分离;3)利用大语言模型进行语音识别。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论