YuE: Scaling Open Foundation Models for Long-Form Music Generation

2025年03月11日
  • 简介
    我们致力于解决长篇音乐生成的任务,特别是具有挑战性的“歌词到歌曲”问题,通过引入基于LLaMA2架构的开放基础模型家族YuE。具体来说,YuE扩展到万亿级别的标记,并能生成长达五分钟的音乐,同时保持歌词对齐、连贯的音乐结构和引人入胜的声乐旋律及适当的伴奏。它通过以下方式实现:(1)轨道解耦的下一个标记预测,以克服密集混合信号;(2)结构渐进条件化,以实现长上下文中的歌词对齐;(3)多任务、多阶段的预训练方案,以实现收敛和泛化。此外,我们重新设计了用于音乐生成的上下文学习技术,使风格转换更加灵活(例如,将日本城市流行音乐转换为英文说唱,同时保留原始伴奏),并支持双向生成。通过广泛的评估,我们证明YuE在音乐性和声乐灵活性方面可以匹敌甚至超越一些专有系统。此外,微调YuE可以提供额外的控制,并增强对尾部语言的支持。进一步地,除了生成任务外,我们还展示了YuE所学的表征在音乐理解任务中的出色表现,其结果在MARBLE基准测试中与最先进的方法相匹配或超越。关键词:歌词转歌曲,歌曲生成,长篇,基础模型,音乐生成
  • 图表
  • 解决问题
    该论文试图解决将歌词转换为完整的音乐作品(即'歌词到歌曲'问题),特别是生成长达五分钟的音乐,同时保持歌词与音乐的一致性和连贯性。这是一个具有挑战性的任务,因为需要确保生成的音乐不仅在结构上合理,而且能够与歌词完美契合。
  • 关键思路
    论文的关键思路是引入YuE模型,基于LLaMA2架构,通过三个主要技术来解决上述问题:1)轨道解耦的下一个标记预测,以处理密集的混合信号;2)结构渐进条件化,以实现长上下文中的歌词对齐;3)多任务、多阶段预训练方法,以提高模型的收敛性和泛化能力。此外,还重新设计了上下文学习技术,使模型能够进行风格转换和双向生成。
  • 其它亮点
    YuE模型展示了卓越的音乐生成能力,能够匹配甚至超越一些专有系统的表现。实验设计包括广泛的评估,证明了YuE在音乐性和声乐灵活性方面的优势。此外,YuE支持细调以增强对尾部语言的支持,并且其学习表示在音乐理解任务中表现良好,达到了或超过了现有方法。论文还提到代码开源,鼓励进一步的研究和应用。
  • 相关研究
    近期相关研究包括使用深度学习模型进行音乐创作的工作,如MuseGAN和Music Transformer。其他值得注意的研究包括探索音乐生成中的情感表达(例如EmoMusic)、利用强化学习优化音乐生成过程(如RL-Musician),以及专注于跨模态音乐生成的任务(如Lyrics2Melody)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论