Scaling Properties of Speech Language Models

简介

语音语言模型（SLMs）旨在从原始音频中学习语言，而不需要文本资源。尽管取得了显著进展，但我们当前的模型表现出较弱的语法和语义能力。然而，如果神经语言模型的扩展性质对语音模态也成立，那么随着用于训练的计算量的增加，这些能力将得到改善。在本文中，我们使用这种扩展行为的模型来估计我们当前方法将产生具有文本大型语言模型（LLMs）英语熟练度的SLM的规模。我们建立了SLMs和LLMs的预训练损失与下游语法和语义性能之间的强相关性，从而导致语言性能的可预测扩展。我们表明，SLMs的语言性能的扩展速度比基于文本的LLMs慢三个数量级。此外，我们研究了旨在提高语义理解的合成数据的好处以及粗糙语音标记化的影响。
图表
解决问题

本文试图估计语音模态下的语言模型（SLM）的英语熟练程度，以及当前方法所需的规模，才能达到文本模态下大型语言模型（LLM）的水平。
关键思路

通过使用语言模型的规模性质来估计语音模态下的语言模型的语言表现，作者发现语音模态下的语言表现比文本模态下的语言表现慢三个数量级。作者还研究了合成数据对语义理解的提升效果以及粗糙语音标记对语言模型的影响。
其它亮点

本文通过预训练损失和下游句法和语义性能之间的强相关性，建立了语言表现的可预测性。作者还使用了合成数据来提高语义理解，并研究了粗糙语音标记对语言模型的影响。实验使用了不同规模的数据集，并与文本模态下的语言模型进行了比较。
相关研究

近期的相关研究包括使用不同的预训练任务来改进语音模态下的语言模型，如TIMIT、LibriSpeech等数据集。

Scaling Properties of Speech Language Models

评论