Scaling Properties of Speech Language Models

2024年03月31日
  • 简介
    语音语言模型(SLMs)的目标是从原始音频中学习语言,而不需要文本资源。尽管取得了显著进展,我们当前的模型仍然表现出较弱的句法和语义能力。然而,如果神经语言模型的缩放属性适用于语音模态,随着用于训练的计算量的增加,这些能力将得到改善。在本文中,我们使用这种缩放行为的模型来估计我们当前的方法将产生具有文本大语言模型(LLMs)英语熟练度的SLM的规模。我们在SLMs和LLMs中建立了预训练损失和下游句法和语义性能之间的强相关性,这导致了语言性能的可预测缩放。我们展示了SLMs的语言性能比文本LLMs慢三个数量级。此外,我们研究了旨在提高语义理解的合成数据的好处以及较粗糙的语音分词的影响。
  • 图表
  • 解决问题
    本论文旨在使用语音语言模型(SLMs)来学习语言,而无需使用文本资源。作者试图验证当前方法在语法和语义方面的能力,并预测当前方法所需的规模,才能使SLMs达到文本模型(LLMs)的英语水平。
  • 关键思路
    本论文使用现有的模型规模来估计语言模型的语法和语义性能,发现语音模型的语言性能提高的速度比文本模型慢三个数量级。作者还研究了合成数据对语义理解的好处以及更粗糙的语音标记化的影响。
  • 其它亮点
    本论文建立了预训练损失和下游语法和语义性能之间的强相关性,提出了语音模型的可扩展性,并探讨了合成数据和粗糙标记化的影响。
  • 相关研究
    在语音语言模型领域,最近的研究包括《SpeechBERT: A Speech Pre-training and Fine-tuning Framework for Natural Language Processing Tasks》和《Conformer: Convolution-augmented Transformer for Speech Recognition》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论