- 简介我们介绍了 SPIRIT-LM,这是一个基础的多模态语言模型,可以自由地混合文本和语音。我们的模型基于一个预训练的文本语言模型,并通过在文本和语音单元上进行持续训练来扩展到语音模态。语音和文本序列被连接为一组标记,并使用一个小型自动筛选的语音-文本平行语料库,使用单词级交错方法进行训练。SPIRIT-LM有两个版本:一个使用语音语义单元的基本版本和一个使用语调和风格单元模拟表现力的表现版本。对于两个版本,文本都使用子词BPE标记进行编码。得到的模型同时显示了文本模型的语义能力和语音模型的表现能力。此外,我们证明了 SPIRIT-LM 能够跨模态(即 ASR、TTS、语音分类)以少量样本的方式学习新任务。
- 图表
- 解决问题本论文旨在提出一种基于多模态的语言模型SPIRIT-LM,用于自然语言处理和语音处理任务,以及跨模态学习。
- 关键思路SPIRIT-LM是一种基于预训练文本语言模型的多模态语言模型,通过持续在文本和语音单元上进行训练来扩展到语音模态。SPIRIT-LM使用自动筛选的小型语音-文本平行语料库,将语音和文本序列连接为单个令牌集,并使用单词级交错方法进行训练。SPIRIT-LM具有文本模型的语义能力和语音模型的表现力能力。此外,SPIRIT-LM能够以少量示例进行跨模态学习。
- 其它亮点论文通过实验表明,SPIRIT-LM在多个任务上的表现优于其他基线模型,并且能够在ASR,TTS和语音分类等任务上进行跨模态学习。此外,SPIRIT-LM还提供了一个开放的代码库和预训练模型,以便其他研究人员使用。
- 在多模态语言模型领域,最近的相关研究包括:1)UniLMv2:一种基于Transformer的多模态语言模型;2)VLP:一种基于视频和语言的多模态语言模型;3)VL-BERT:一种基于视觉和语言的BERT模型。
沙发等你来抢
去评论
评论
沙发等你来抢