Audio Prompt Adapter: Unleashing Music Editing Abilities for Text-to-Music with Lightweight Finetuning

2024年07月23日
  • 简介
    文本到音乐模型允许用户通过文本指令生成接近真实的音乐音频。然而,由于在保持简单用户界面的同时进行细粒度音频修改的冲突要求,编辑音乐音频仍然具有挑战性。为了解决这个挑战,我们提出了音频提示适配器(或AP-Adapter),这是预训练的文本到音乐模型的一个轻量级补充。我们利用AudioMAE从输入音频中提取特征,并构建基于注意力机制的适配器将这些特征馈送到AudioLDM2的内部层中,这是一种基于扩散的文本到音乐模型。AP-Adapter具有2200万可训练参数,使用户能够利用原始音频和短文本作为输入,掌握音乐的全局(例如流派和音色)和局部(例如旋律)方面。通过客观和主观研究,我们评估了AP-Adapter在三个任务上的表现:音色转换、流派转换和伴奏生成。此外,我们还展示了它在训练期间包含未见乐器的域外音频上的有效性。
  • 图表
  • 解决问题
    本论文旨在解决文本转音乐模型中音频编辑的挑战,即如何在保持简单用户界面的同时进行精细的音频编辑。
  • 关键思路
    本论文提出了一种轻量级的Audio Prompt Adapter (AP-Adapter)来解决音频编辑挑战。AP-Adapter利用AudioMAE从输入音频中提取特征,并构建基于注意力机制的适配器将这些特征输入到AudioLDM2的内部层中。
  • 其它亮点
    本论文的实验评估了AP-Adapter在三个任务上的效果:音色转换、流派转换和伴奏生成。此外,论文还展示了AP-Adapter在训练期间未见过的乐器的领域外音频上的有效性。论文使用了22M个可训练参数,并提供了开源代码。
  • 相关研究
    最近的相关研究包括:1)使用深度学习进行音乐生成的研究;2)文本到音乐模型的研究;3)使用注意力机制进行音频编辑的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论