Unveiling the Potential of LLM-Based ASR on Chinese Open-Source Datasets

简介

大型语言模型在各种自然语言处理任务中表现出无与伦比的效果，将LLM与自动语音识别集成正在成为一种主流范式。在这个势头下，我们的研究深入探讨了这种范式在一个大型开源中文数据集上的应用。具体而言，我们的研究旨在评估在语音基础编码器LLM ASR范式下，语音编码器、LLM和投影器模块的各种配置对性能的影响。此外，我们引入了一种三阶段训练方法，专门用于增强模型对听觉和文本信息的对齐能力。这种方法的实施以及ASR组件的战略性整合，使我们在AISHELL1、TestNet和TestMeeting测试集上实现了SOTA性能。我们的分析为未来基于LLM的ASR系统的研究提供了实证基础，并提供了使用中文数据集优化性能的见解。我们将公开发布用于数据准备、训练、推理和评分的所有脚本，以及预训练模型和训练日志，以促进可重复研究。
图表
解决问题

本论文旨在研究基于大型语言模型和自动语音识别的语音转文字系统在中文数据集上的表现，并探索不同配置的影响。
关键思路

论文提出了一种三阶段的训练方法，结合ASR组件，优化模型对声音和文本信息的对齐能力。同时，论文还比较了不同配置的语音编码器、LLMs和投影模块的表现。
其它亮点

论文在AISHELL1、TestNet和TestMeeting测试集上取得了SOTA的表现，实验结果表明了大型语言模型在语音转文字系统中的优异表现。论文将所有脚本、预训练模型和训练日志公开，方便其他研究人员进行复现和优化。
相关研究

在最近的相关研究中，也有一些关于基于大型语言模型的语音转文字系统的研究。例如《End-to-End Mandarin Spoken Language Understanding with Large-Scale Pretraining》、《Large-Scale Pretraining for Neural Machine Translation》等。

Unveiling the Potential of LLM-Based ASR on Chinese Open-Source Datasets

评论