- 简介大型语言模型(LLMs)在各种自然语言处理任务中表现出无与伦比的效果,将LLMs与自动语音识别(ASR)集成正在成为主流范例。在此势头的推动下,我们的研究深入探讨了这种范例在一个大型开源的中文数据集上的应用。具体而言,我们的研究旨在评估语音基础编码器-LLM ASR范例中不同配置的语音编码器、LLMs和投影器模块的影响。此外,我们引入了一种三阶段训练方法,专门用于增强模型对音频和文本信息的对齐能力。通过实施这种方法,以及战略性地集成ASR组件,我们在AISHELL-1、Test_Net和Test_Meeting测试集上实现了SOTA性能。我们的分析为未来基于LLM的ASR系统研究提供了实证基础,并提供了优化使用中文数据集的性能的见解。我们将公开发布用于数据准备、训练、推理和评分的所有脚本,以及预训练模型和训练日志,以促进可重复的研究。
- 图表
- 解决问题本论文旨在评估语音编码器、大型语言模型和投影器模块的不同配置对基于语音编码器-大型语言模型自动语音识别模型的影响,并介绍了一种三阶段训练方法,以提高模型对听觉和文本信息的对齐能力。
- 关键思路本论文的关键思路是通过优化语音编码器、大型语言模型和投影器模块的配置,以及使用三阶段训练方法来提高自动语音识别模型的性能。
- 其它亮点本论文使用了大型开源中文数据集进行实验,并在AISHELL-1、Test_Net和Test_Meeting测试集上实现了SOTA性能。论文作者公开了所有数据准备、训练、推理和评分的脚本,以及预训练模型和训练日志,以促进可重复性研究。
- 近期在这个领域中的相关研究包括:1. "Deep Residual Learning for Small-Footprint Keyword Spotting";2. "Streaming End-to-End Speech Recognition For Mobile Devices";3. "Exploring Architectures, Data and Units For Streaming End-to-End Speech Recognition with RNN-Transducer"。
沙发等你来抢
去评论
评论
沙发等你来抢