Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition

简介

本文旨在准确地找到自动语音识别（ASR）假设中的错误单词并进行有根据的恢复，这就是语音错误纠正的目标。我们提出了一种非自回归语音错误纠正方法。置信度模块测量N个ASR假设中每个单词的不确定性作为参考，以找到错误单词的位置。此外，ASR编码器的声学特征也用于提供正确的发音参考。使用编辑路径对ASR的N个候选项进行对齐，以确认彼此并恢复一些缺失的字符错误。此外，交叉注意机制将错误纠正参考和ASR假设之间的信息融合起来。实验结果表明，声学和置信参考都有助于错误纠正。与ASR模型相比，所提出的系统将错误率降低了21%。
图表
解决问题

该论文旨在解决语音识别中的错误纠正问题，提出了一种非自回归的语音错误纠正方法，旨在准确地找到ASR假设中的错误单词并进行纠正。
关键思路

该论文的关键思路是使用置信度模块和声学特征来纠正ASR假设中的错误，使用编辑路径对N个候选项进行对齐，并使用交叉注意机制融合纠错参考和ASR假设之间的信息。
其它亮点

该论文的实验结果表明，声学和置信度参考都有助于错误纠正。该系统相较于ASR模型将错误率降低了21%。实验使用了多个数据集，并开源了代码。
相关研究

最近在这个领域的相关研究包括：'A Review of Automatic Speech Recognition'和'End-to-End Speech Recognition Using Deep Neural Networks'等。

Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition

评论