- 简介本文介绍了Open Whisper-style Speech Model (OWSM)系列,旨在实现构建高级语音转文本(S2T)基础模型的完全透明度。为此,OWSM模型在25个公共语音数据集上进行训练,这些数据集在多个方面都是异构的。在本研究中,我们通过引入OWSM v3.2来改进先前的模型,通过研究和解决数据异构性的影响来实现这一目标。我们的研究从对每个数据集的详细分析开始,从中得出了两个关键策略:使用代理任务进行数据过滤以提高数据质量,以及使用开放的大型语言模型(LLM)来包含标点和真实大小写。在所有其他配置保持不变的情况下,OWSM v3.2在使用15%较少的训练数据的情况下改善了OWSM v3.1基线的性能。
- 图表
- 解决问题本论文旨在通过解决数据异质性问题,提高Open Whisper-style Speech Model (OWSM) v3.1的性能表现。
- 关键思路通过数据过滤和代理任务以及开放式大型语言模型(LLM)的标点和真实大小写的整合,提高了OWSM v3.1的性能表现。
- 其它亮点论文分析了25个公共语音数据集,提出了数据过滤和代理任务的策略,并使用开放式LLM进行标点和大小写的整合。OWSM v3.2在使用更少的训练数据的情况下,比OWSM v3.1表现更好。
- 最近的相关研究包括使用深度学习的语音识别模型,如CTC、attention-based和transformer-based模型等。
沙发等你来抢
去评论
评论
沙发等你来抢