Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition

2024年07月05日
  • 简介
    现代自动语音识别(ASR)模型需要在各种应用场景中提供特定的上下文信息,准确地转录不同领域、语言、口音等多样化的语音信号。经典的端到端模型结合额外的语言模型表现出色,但主要适用于数据匹配场景,并逐渐接近瓶颈。本文介绍了Seed-ASR,一种基于大型语言模型(LLM)的语音识别模型。Seed-ASR基于音频条件下的LLM(AcLLM)框架开发,通过将连续的语音表示与上下文信息一起输入到LLM中,利用LLM的能力。通过阶段性的大规模训练和在LLM中引出上下文感知能力,Seed-ASR在包括多个领域、口音/方言和语言在内的综合评估集上表现出显著的改进。此外,Seed-ASR还可以进一步部署以支持各种场景中的特定需求,而无需额外的语言模型。与最近发布的大型ASR模型相比,Seed-ASR在中英文公共测试集上的单词(或字符,对于中文)错误率降低了10%-40%,进一步证明了其强大的性能。
  • 图表
  • 解决问题
    本文旨在解决语音识别中多语种、多口音、多领域等多样性数据的识别问题,并验证了基于大型语言模型的语音识别模型Seed-ASR的有效性。
  • 关键思路
    Seed-ASR是基于音频条件下的大型语言模型(AcLLM)框架开发的语音识别模型,通过连续语音表示和上下文信息输入LLM来发挥LLM的能力,通过阶段性大规模训练和引出LLM中的上下文感知能力,取得了显著的性能提升。与最近发布的大型ASR模型相比,在包括多语种、多口音、多领域的综合评估集上,Seed-ASR在中英文公共测试集上实现了10%-40%的词(或字符)错误率降低。
  • 其它亮点
    实验结果表明Seed-ASR在多种语音识别任务上的表现优于端到端模型,并且无需额外的语言模型。此外,Seed-ASR的性能也超过了最近发布的其他大型ASR模型。
  • 相关研究
    最近相关的研究包括基于深度学习和端到端模型的语音识别技术,以及使用大型语言模型的语音识别技术。其中一些研究的论文标题包括:“Deep Speech 2: End-to-End Speech Recognition in English and Mandarin”和“Exploring Architectures, Data and Units for Streaming End-to-End Speech Recognition with RNN-Transducer”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论