It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition

简介

最近的研究成功地表明，大型语言模型（LLMs）可以成功地用于在自动语音识别（ASR）输出之上进行生成性错误校正（GER）。具体而言，LLM被用于从ASR系统生成的N个最佳假设列表直接映射到预测的输出转录。然而，尽管其有效性，GER引入了额外的数据不确定性，因为LLM在训练时没有考虑到语音信号中可用的声学信息。在这项工作中，我们旨在通过一种称为Uncertainty-Aware Dynamic Fusion（UADF）的新型后期融合解决方案注入声学信息，以在生成预测转录之前克服这种限制。UADF是一种多模态融合方法，实现在自回归解码过程中，并分为两个阶段：（i）首先分析和校准标记级LLM决策，（ii）然后动态吸收来自声学模态的信息。从各种ASR任务收集的实验证据表明，UADF在多个方面超越了现有的融合机制。它在减轻LLM中的数据不确定性和解决融合过程中单一模态的差的泛化方面产生了显着的词错误率（WER）改进。我们还展示了UADF如何无缝地适应视听语音识别。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决LLM在GER中存在的数据不确定性问题，并提出了一种新的融合方法UADF。
关键思路

UADF是一种多模态融合方法，通过校准LLM决策并动态吸收声学模态信息来提高ASR系统的性能。
其它亮点

论文通过实验证明UADF在多个ASR任务中表现出色，显著降低了词误率，并解决了LLM中的数据不确定性问题。此外，UADF还能够适应音视频语音识别。
相关研究

最近的相关研究包括“Generative Error Correction for End-to-End ASR using Linguistic and Contextual Information”和“Acoustic-Only and Language-Only Error Correction for ASR using Sequence-to-Sequence Models”。

It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition

提问交流

提问交流