Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models

简介

幻觉是深度神经网络产生的一种输出错误。虽然这在自然语言处理中已经得到了研究，但在自动语音识别领域中尚未被研究。在这里，我们将ASR中的幻觉定义为模型生成的转录与源话语在语义上不相关，但仍然流畅和连贯的情况。幻觉与模型可能的自然语言输出的相似性会产生欺骗的危险，并影响系统的可信度。我们展示了常用的度量指标，如词错误率，无法区分幻觉和非幻觉模型。为了解决这个问题，我们提出了一种基于扰动的方法，在测试时评估自动语音识别（ASR）模型对幻觉的敏感性，不需要访问训练数据集。我们证明了这种方法有助于区分具有相似基线词错误率的幻觉和非幻觉模型。我们进一步探讨了ASR错误类型与数据集噪声类型之间的关系，以确定哪些噪声类型最有可能产生幻觉输出。我们设计了一个框架，通过分析幻觉与基准事实之间的语义联系和流畅性来识别幻觉。最后，我们发现如何通过向话语注入随机噪声来诱发幻觉。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决自动语音识别（ASR）中的幻觉问题，即模型生成的转录与源话语在语义上不相关，但仍然流畅和连贯。这可能会误导用户并影响系统的可信度。
关键思路

论文提出了一种基于扰动的方法来评估ASR模型在测试时对幻觉的易感性，并且不需要访问训练数据集。该方法有助于区分具有相似基线词错误率的幻觉和非幻觉模型。此外，论文还设计了一种框架来识别幻觉，并发现了一种通过随机噪声注入语音来诱发幻觉的方法。
其它亮点

论文使用了多个数据集进行实验，并展示了其方法的有效性。此外，论文还发现了噪声类型与ASR错误类型之间的关系，并提出了一种基于语义连接和流畅性的框架来识别幻觉。
相关研究

最近的相关研究包括“基于深度学习的语音识别中的错误分析”和“自动语音识别中的后处理技术综述”等。

Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models

提问交流

提问交流