Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

2024年05月28日
  • 简介
    最近的文本到音乐编辑技术,使用文本查询修改音乐(例如通过改变其风格或调整乐器组成),为AI辅助音乐创作提供了独特的挑战和机遇。此领域以前的方法受到了从头开始训练特定编辑模型的限制,这既耗费资源又效率低下;其他研究使用大型语言模型来预测编辑后的音乐,导致音频重构不精确。为了结合各种优势并解决这些限制,我们介绍了Instruct-MusicGen,这是一种新颖的方法,通过微调预训练的MusicGen模型来有效地遵循编辑指令,例如添加、删除或分离音轨。我们的方法涉及对原始MusicGen架构的修改,包括文本融合模块和音频融合模块,这使得模型能够同时处理指令文本和音频输入,并产生所需的编辑后音乐。值得注意的是,Instruct-MusicGen仅向原始MusicGen模型引入了8%的新参数,并且仅训练了5K步,但它在所有任务上都比现有基线表现更好,并且表现与针对特定任务进行训练的模型相当。这一进展不仅提高了文本到音乐编辑的效率,而且扩大了音乐语言模型在动态音乐制作环境中的适用性。
  • 图表
  • 解决问题
    本文试图解决音乐文本编辑中训练模型的资源密集性和低效性问题,提出了一种新的方法Instruct-MusicGen,通过微调预训练的MusicGen模型,使其能够有效地遵循编辑指令。
  • 关键思路
    Instruct-MusicGen通过将文本融合模块和音频融合模块融合到原始MusicGen架构中,使模型能够同时处理指令文本和音频输入,并产生所需的编辑音乐。相比现有基线,Instruct-MusicGen只引入了8%的新参数,只训练了5K步,但在所有任务上都实现了优越的性能,并展示了与针对特定任务训练的模型相当的性能。
  • 其它亮点
    论文的实验使用了MUSDB18数据集,评估了Instruct-MusicGen在添加、删除、分离音频轨道等任务上的性能。此外,作者还开源了Instruct-MusicGen的代码,使得其他研究者能够在此基础上继续研究。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Neural Text-to-Speech with Tacotron 2》、《Music Transformer: Generating Music with Long-Term Structure》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论