Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

向作者提问

NEW

简介

最近，文本到音乐编辑方面的新进展，采用文本查询来修改音乐（例如通过改变其风格或调整乐器组件），为AI辅助音乐创作提供了独特的挑战和机遇。以往在这个领域的方法受到了从头开始训练特定编辑模型的限制，这既耗费资源又效率低下；其他研究使用大型语言模型来预测编辑后的音乐，导致音频重构不精确。为了结合各种优势并解决这些限制，我们介绍了Instruct-MusicGen，这是一种新颖的方法，通过微调预训练的MusicGen模型来有效地遵循编辑指令，例如添加、删除或分离音轨。我们的方法涉及对原始MusicGen架构的修改，包括一个文本融合模块和一个音频融合模块，允许模型同时处理指令文本和音频输入，并产生所需的编辑音乐。值得注意的是，Instruct-MusicGen只向原始MusicGen模型引入了8%的新参数，并且只训练了5K步，但它在所有任务上都比现有基线表现更好，并展示了与针对特定任务训练的模型相当的性能。这一进展不仅提高了文本到音乐编辑的效率，而且扩大了音乐语言模型在动态音乐制作环境中的适用性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决文本到音乐编辑的效率和精确性问题，提出了一种新的方法Instruct-MusicGen。
关键思路

Instruct-MusicGen通过在原有MusicGen模型中加入文本融合模块和音频融合模块，实现同时处理文本指令和音频输入，从而高效地生成编辑后的音乐。相比现有方法，该方法只引入了8%的新参数，只需训练5K步即可达到优异的性能表现。
其它亮点

论文使用了多个数据集进行实验，证明了该方法在添加、删除、分离音轨等任务上的优越表现。此外，该方法的高效性和精确性使得它在动态音乐制作环境中具有广泛的应用前景。论文还开源了代码和预训练模型。
相关研究

近期的相关研究包括：'MusicTransformer: Generating Music with Long-Term Structure'，'BachGAN: High-Resolution Image Synthesis from Salient Object Layouts'，'Neural Machine Translation of Rare Words with Subword Units'等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问