- 简介最近关于离散语音标记化的研究为跨模态的多任务模型打开了大门,例如语音识别、文本转语音、语音翻译等。此外,从大量文本语料库中预训练的大型语言模型(LLMs)包含丰富的语言信息,可以提高各种任务的准确性。在本文中,我们提出了一个仅有解码器的离散多模态语言模型(DMLM),可以灵活地应用于多个任务(ASR、T2S、S2TT等)和模态(文本、语音、视觉)。我们探讨了离散多模态模型的几个关键方面,包括损失函数、权重初始化、混合训练监督和码本。我们的结果表明,DMLM在多个任务和数据集上受益显著,可以通过有监督和无监督训练的组合来提高性能。此外,对于ASR,从预训练的LLM初始化DMLM,并从Whisper激活中导出码本可以提高性能。
- 图表
- 解决问题本篇论文旨在探索离散多模态语言模型(DMLM)的关键方面,并验证其在多种任务和数据集中的有效性。同时,论文还试图解决多模态任务中的挑战,如如何处理不同模态之间的差异和如何使用预训练的大型语言模型。
- 关键思路本文提出了一个仅包含解码器的离散多模态语言模型,可以灵活地应用于多种任务和模态。通过混合监督和无监督训练,使用预训练的大型语言模型进行初始化,以及使用Whisper激活导出码本等方式,DMLM在多任务和数据集中取得了显著的性能提升。
- 其它亮点本文的亮点在于提出了一个灵活的离散多模态语言模型,可以应用于多种任务和模态。同时,使用了混合监督和无监督训练,以及使用预训练的大型语言模型进行初始化等方式,进一步提高了模型的性能。实验使用了多个数据集,包括ASR、T2S、S2TT等,证明了DMLM在这些任务中的有效性。
- 近期的相关研究包括使用Transformer模型进行多模态任务的研究(如M3P),以及使用离散表示学习进行语音识别的研究(如Mockingjay)。
沙发等你来抢
去评论
评论
沙发等你来抢