华为诺亚实验室提出:支持语音的系统通常首先通过自动语音识别 (ASR) 模型将音频转换为文本,然后将文本馈送至下游自然语言处理 (NLP) 模块。ASR 系统的错误可能会严重降低 NLP 模块的性能。因此,必须使它们能够有力地应对 ASR 错误。先前的工作已经表明,在培训过程中通过注入ASR噪声来使用数据增强方法来解决这个问题是有效的。在本文中,我们利用普遍存在的预先训练的语言模型,以 ASR 可验证的噪音生成培训样本。与以前的方法相比,我们的方法产生更符合真实世界错误分布的 ASR 噪声。关于口语翻译 (SLT) 和口语理解 (SLU) 的实验结果表明,我们的方法有效地提高了系统对 ASR 错误的稳健性,并在这两项任务上都取得了最先进的结果。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢