- 简介本文介绍了一种名为Audio-LLM的方法,它将音频模态引入到大型语言模型(LLM)中,使得该强大的LLM能够识别、理解和生成音频。然而,在嘈杂的环境中进行语音识别时,我们观察到Audio-LLM存在幻听和重复问题,导致替换和插入错误。本文提出了一种基于转录提示的Audio-LLM方法,通过引入ASR专家作为转录tokenizer和混合自回归(AR)非自回归(NAR)解码方法来解决上述问题。在10k小时的WenetSpeech普通话语料库上进行的实验表明,相对于基线,我们的方法在Test_Net和Test_Meeting评估集上分别减少了12.2%和9.6%的CER。值得注意的是,我们将评估集上的解码重复率降至零,表明解码重复问题已经得到根本解决。
- 图表
- 解决问题解决问题:论文试图解决在嘈杂环境下语音识别中出现的幻觉和重复问题,提出了一种基于转录提示的音频-LLM方法,旨在提高语音识别的准确性和稳定性。
- 关键思路关键思路:论文提出了引入ASR专家作为转录分词器和混合自回归(AR)非自回归(NAR)解码方法的方案。这种方法能够有效地解决音频-LLM中的错误问题,提高语音识别的准确性和稳定性。
- 其它亮点亮点:论文在10k小时的WenetSpeech普通话语料库上进行了实验,相对于基线,该方法在Test_Net和Test_Meeting评估集上将CER分别降低了12.2%和9.6%。此外,该方法还能够将评估集上的解码重复率降至零。
- 相关研究:最近的相关研究包括:1. "Towards End-to-End Speech Recognition with Self-Attention";2. "SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition";3. "Large-Scale Multilingual Speech Recognition with a Streaming End-to-End Model"等。
沙发等你来抢
去评论
评论
沙发等你来抢