SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

2025年02月18日
  • 简介
    文本到歌曲生成的任务,即从文本输入创建人声和伴奏,由于领域复杂性和数据稀缺性而面临重大挑战。现有的方法通常采用多阶段生成程序,导致训练和推理管道繁琐。在本文中,我们提出了SongGen,这是一个完全开源的单阶段自回归变压器模型,旨在实现可控的歌曲生成。所提出的模型能够对多种音乐属性进行细粒度控制,包括歌词以及对乐器、类型、情绪和音色的文本描述,并提供了一个可选的三秒参考片段用于声音克隆。在统一的自回归框架内,SongGen支持两种输出模式:混合模式,直接生成人声和伴奏的混合;双轨模式,分别合成两者,以在下游应用中提供更大的灵活性。我们探索了每种模式下的多样化标记模式策略,带来了显著的改进和宝贵的见解。此外,我们设计了一个带有有效质量控制的自动化数据预处理管道。为了促进社区参与和未来研究,我们将发布我们的模型权重、训练代码、注释数据和预处理管道。生成的样本将在我们的项目页面https://liuzh-19.github.io/SongGen/ 上展示,代码将可在https://github.com/LiuZH-19/SongGen 获取。
  • 图表
  • 解决问题
    论文试图解决文本到歌曲生成的问题,这是一个复杂且数据稀缺的任务。现有的方法通常需要多阶段生成过程,导致训练和推理流程繁琐。这并不是一个全新的问题,但该研究旨在通过简化模型架构来改进现有方法。
  • 关键思路
    关键思路是提出SongGen,一个完全开源的单阶段自回归变换器,用于可控的歌曲生成。与现有的分阶段方法不同,SongGen在一个统一的自回归框架内操作,支持细粒度控制多种音乐属性(如歌词、乐器描述、流派、情绪和音色),并且可以选择性地使用三秒参考音频片段进行声音克隆。此外,它支持两种输出模式:混合模式和双轨模式。
  • 其它亮点
    论文的亮点包括设计了自动化的数据预处理管道以确保质量控制,并探索了每种输出模式下的多样化标记模式策略。作者还计划发布模型权重、训练代码、注释数据集和预处理管道,促进社区参与和未来研究。生成的样本已在项目页面上展示,代码也将公开。
  • 相关研究
    最近在这个领域中,相关研究包括《Text-to-Song Synthesis with Neural Networks》、《Controllable Music Generation Using Attribute Conditioning》和《Multi-Stage Neural Models for Text-to-Song Conversion》等。这些研究主要集中在提高生成音乐的质量、多样性和可控性方面。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论