Textually Pretrained Speech Language Models
解决问题:论文旨在解决语音语言模型(SpeechLMs)在没有文本监督的情况下的训练问题。研究者提出了一种名为TWIST的方法,使用预先训练的文本语言模型进行暖启动,以提高SpeechLMs的性能。
关键思路:该论文的关键思路是使用预训练的文本语言模型进行暖启动。相比于现有的研究,这种方法在提高SpeechLMs性能方面具有新意。
其他亮点:该论文设计了实验来分析不同的模型设计选择对SpeechLMs性能的影响,包括语音分词器、预训练的文本模型和数据集大小。研究者还介绍了两个口语版本的StoryCloze文本基准,以进一步改进模型评估和推进未来的研究。研究者提供了语音样本和开源代码。
关于作者:Michael Hassid等人来自以色列希伯来大学,他们的代表作包括“Unsupervised Cross-Lingual Representation Learning for Speech and Text”和“Unsupervised Pretraining for Sequence to Sequence Learning”。
相关研究:最近的相关研究包括“Self-supervised Learning of Interpretable Speech Representations”(J. Chorowski等人,卡内基梅隆大学)和“Unsupervised Learning of Transferable Speech Representations”(Y. Pan等人,谷歌)。
论文摘要:本文介绍了一种名为TWIST的方法,可以使用预训练的文本语言模型的热启动来训练SpeechLMs(Speech Language Models)。SpeechLMs只处理和生成声学数据,没有文本监督。我们展示了使用自动和人工评估,TWIST在各个方面都优于冷启动SpeechLM。我们还进行了实证分析,探讨了不同的模型设计选择,如语音分词器、预训练文本模型和数据集大小的影响。我们发现,模型和数据集的规模都在构建表现更好的SpeechLMs方面发挥着重要作用。基于我们的观察,我们提出了迄今为止参数数量和训练数据量最大的SpeechLM。此外,我们还引入了两个StoryCloze文本基准测试的口语版本,以进一步改进模型评估并推进未来的研究。Speech样本可在我们的网站上找到:https://pages.cs.huji.ac.il/adiyoss-lab/twist/。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢