Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words

简介

我们开发了一个基于大型语言模型（LLM）的自动语音识别（ASR）系统，可以通过在文本提示中提供关键词来进行上下文化。我们采用仅解码器架构，并使用我们内部的LLM，PLaMo-100B，从头开始使用日语和英语文本为主的数据集进行预训练作为解码器。我们采用预训练的Whisper编码器作为音频编码器，音频编码器的音频嵌入通过适配器层投影到文本嵌入空间，并与从文本提示转换的文本嵌入连接以形成解码器的输入。通过在文本提示中提供关键词作为先验信息，我们可以在不修改模型架构的情况下上下文化我们的LLM-based ASR系统，以准确转录输入音频中的模糊词。实验结果表明，向解码器提供关键词可以显著提高罕见和模糊单词的识别性能。
图表
解决问题

本论文旨在通过提供关键词作为先验信息来上下文化自然语言处理中的自动语音识别系统，以便准确地转录输入音频中的模糊单词。
关键思路

本文采用了解码器-only架构，并使用了我们自己开发的大型语言模型PLaMo-100B作为解码器，使用预先训练的Whisper编码器作为音频编码器，并通过适配器层将音频嵌入从文本提示转换而来的文本嵌入空间中，并与之相连，以形成解码器的输入。
其它亮点

本文通过提供关键词作为先验信息来上下文化自然语言处理中的自动语音识别系统，以便准确地转录输入音频中的模糊单词。实验结果表明，提供关键词可以显著提高罕见和模糊单词的识别性能。
相关研究

在这个领域中，最近的相关研究包括：1. "Contextualized Speech Recognition with External Information and Connectionist Temporal Classification"; 2. "ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context"。

Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words

评论