- 简介尽管自动语音识别(ASR)有了显著的进展,但在面对不良条件时,性能往往会下降。生成式纠错(GER)利用大型语言模型(LLM)的优异文本理解能力,在ASR纠错方面表现出色,其中N个最佳假设为转录预测提供了有价值的信息。然而,GER面临着固定的N个最佳假设、对声学信息利用不足以及对多口音场景的限制性较强等挑战。在本文中,我们探讨了GER在多口音场景中的应用。口音代表了与标准发音规范的偏差,而同时进行ASR和口音识别(AR)的多任务学习框架已经有效地解决了多口音场景,成为了一个突出的解决方案。在这项工作中,我们提出了一个统一的ASR-AR GER模型,名为MMGER,利用多模式纠正和多粒度纠正。采用多任务ASR-AR学习来提供动态的1个最佳假设和口音嵌入。多模式纠正通过将语音的声学特征与相应的字符级1个最佳假设序列进行强制对齐,实现了细粒度的帧级纠正。多粒度纠正通过在细粒度多模式纠正之上加入常规的1个最佳假设,补充了全局的语言信息,实现了粗粒度的话语级纠正。MMGER有效地缓解了GER的限制,并为基于LLM的ASR纠错量身定制了多口音场景。在多口音普通话KeSpeech数据集上进行的实验表明,MMGER的有效性,相对于一个成熟的标准基线,AR准确率提高了26.72%,ASR字符错误率降低了27.55%。
- 图表
- 解决问题研究如何在多口音场景下提高自动语音识别的性能。
- 关键思路提出了一种统一的自动语音识别-口音识别-生成错误校正模型(MMGER),利用多模态和多粒度纠错的方法来解决固定N-best假设、利用声学信息不足以及对多口音场景的限制等问题。
- 其它亮点论文使用了多任务学习框架,同时进行自动语音识别和口音识别,并结合多模态和多粒度的方法进行错误校正。实验使用了多口音普通话KeSpeech数据集,相比于标准基线模型,AR准确率提高了26.72%,ASR字符错误率降低了27.55%。
- 最近的相关研究包括《Multi-accent Mandarin Chinese Speech Recognition with Curriculum Learning》和《A Comprehensive Study of Deep Bidirectional LSTM RNNs for Acoustic Modeling in Speech Recognition》等。
沙发等你来抢
去评论
评论
沙发等你来抢