ChatMusician: Understanding and Generating Music Intrinsically with LLM

2024年02月25日
  • 简介
    虽然大型语言模型(LLMs)在文本生成方面表现出惊人的能力,但我们发现它们的能力还没有泛化到音乐这种人类的创造性语言上。我们介绍了一个名为ChatMusician的开源LLM,它集成了内在的音乐能力。它基于对LLaMA2进行持续预训练和微调,使用文本兼容的音乐表示法ABC记谱,并将音乐视为第二种语言。ChatMusician可以使用纯文本标记器理解和生成音乐,无需任何外部多模态神经结构或标记器。有趣的是,赋予音乐能力并不会损害语言能力,甚至可以实现稍高的MMLU得分。我们的模型能够作曲,创作出结构良好、长度完整的音乐,可以根据文本、和弦、旋律、主题、音乐形式等条件进行创作,超越了GPT-4基线。在我们精心策划的大学水平音乐理解基准测试MusicTheoryBench上,ChatMusician在零样本设置下的表现明显优于LLaMA2和GPT-3.5。我们的工作揭示了LLMs可以成为音乐的优秀压缩器,但仍有重要的领域需要开发。我们在GitHub上发布了我们的4B标记音乐语言语料库MusicPile、收集的MusicTheoryBench、代码、模型和演示。
  • 图表
  • 解决问题
    论文旨在将大型语言模型(LLMs)的能力推广到音乐生成领域,提出了一种基于ABC符号表示的文本兼容的音乐表示方法,并在此基础上开发了一个具有内在音乐能力的开源LLM ChatMusician。研究表明,目前LLMs的能力尚未完全推广到音乐生成领域。
  • 关键思路
    论文提出了一种基于ABC符号表示的文本兼容的音乐表示方法,并在此基础上开发了一个具有内在音乐能力的LLM ChatMusician。通过持续的预训练和微调,ChatMusician能够理解和生成音乐,同时不损害其语言能力。
  • 其它亮点
    ChatMusician能够生成完整的、结构良好的音乐,可以根据文本、和弦、旋律、主题、音乐形式等进行条件生成,超过了GPT-4基准。在经过精心策划的大学水平音乐理解基准MusicTheoryBench上,ChatMusician在零样本设置下的表现优于LLaMA2和GPT-3.5。研究人员还公开了其4B令牌音乐语言语料库MusicPile、MusicTheoryBench、代码、模型和演示。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如Transformer-based音乐生成模型、基于规则的音乐生成方法、基于强化学习的音乐生成方法等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论