Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition

2024年06月29日
  • 简介
    本文旨在准确地找到自动语音识别(ASR)假设中的错误单词并进行有根据的恢复,这就是语音错误纠正的目标。我们提出了一种非自回归语音错误纠正方法。置信度模块测量N个ASR假设中每个单词的不确定性作为参考,以找到错误单词的位置。此外,ASR编码器的声学特征也用于提供正确的发音参考。使用编辑路径对ASR的N个候选项进行对齐,以确认彼此并恢复一些缺失的字符错误。此外,交叉注意机制将错误纠正参考和ASR假设之间的信息融合起来。实验结果表明,声学和置信参考都有助于错误纠正。与ASR模型相比,所提出的系统将错误率降低了21%。
  • 图表
  • 解决问题
    该论文旨在解决语音识别中的错误纠正问题,提出了一种非自回归的语音错误纠正方法,旨在准确地找到ASR假设中的错误单词并进行纠正。
  • 关键思路
    该论文的关键思路是使用置信度模块和声学特征来纠正ASR假设中的错误,使用编辑路径对N个候选项进行对齐,并使用交叉注意机制融合纠错参考和ASR假设之间的信息。
  • 其它亮点
    该论文的实验结果表明,声学和置信度参考都有助于错误纠正。该系统相较于ASR模型将错误率降低了21%。实验使用了多个数据集,并开源了代码。
  • 相关研究
    最近在这个领域的相关研究包括:'A Review of Automatic Speech Recognition'和'End-to-End Speech Recognition Using Deep Neural Networks'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论