- 简介目前,利用大型语言模型(LLM)进行研究的局面正在迅速增长。许多研究利用这些模型强大的推理能力来理解各种模态,如文本、语音、图像、视频等。他们还利用LLM来理解人类意图并生成所需的输出,如图像、视频和音乐。然而,利用LLM同时进行理解和生成的研究仍然有限,处于起步阶段。为了填补这一空白,我们介绍了一个多模态音乐理解和生成(M$^{2}$UGen)框架,它集成了LLM对不同模态的音乐进行理解和生成的能力。M$^{2}$UGen框架旨在通过使用预训练的MERT、ViT和ViViT模型,从不同的灵感来源中释放创造潜力,包括音乐、图像和视频。为了实现音乐生成,我们探索了AudioLDM 2和MusicGen的使用。通过集成LLaMA 2模型,实现了多模态理解和音乐生成的桥梁。此外,我们利用MU-LLaMA模型生成了大量支持文本/图像/视频到音乐生成的数据集,便于训练我们的M$^{2}$UGen框架。我们对我们提出的框架进行了彻底的评估。实验结果表明,我们的模型达到或超过了当前最先进模型的性能。
- 解决问题本文旨在解决结合理解和生成功能的大型语言模型在音乐生成方面的局限性,提出了一个多模态音乐理解和生成框架。
- 关键思路M$^{2}$UGen框架整合了不同模态的预训练模型,通过AudioLDM 2和MusicGen实现音乐生成,通过LLaMA 2模型实现多模态理解和音乐生成的桥梁。
- 其它亮点实验结果表明,M$^{2}$UGen框架的性能达到或超过了当前最先进模型的表现。MU-LLaMA模型生成的数据集有助于训练M$^{2}$UGen框架。开放了代码和数据集。
- 最近的相关研究包括:1. Music Transformer;2. MuseNet;3. Jukebox。
沙发等你来抢
去评论
评论
沙发等你来抢