- 简介混音风格转换通过从参考歌曲中推断制作属性,自动化生成给定一组音轨的多轨混音。然而,现有的混音风格转换系统存在局限性,它们通常只能处理固定数量的音轨,会引入伪影,并以端到端的方式生成混音,没有传统音频效果的基础,从而限制了可解释性和可控性。为了克服这些挑战,我们引入了Diff-MST框架,其中包括可微分的混音控制台、变形器控制器和音频制作风格损失函数。通过输入原始音轨和参考歌曲,我们的模型估计可微分混音控制台内音频效果的控制参数,生成高质量的混音并实现事后调整。此外,我们的架构支持任意数量的输入音轨,无需源标记,实现了真实世界的应用。我们对我们的模型性能进行了评估,并展示了我们的方法、架构设计、量身定制的音频制作风格损失和创新的训练方法对于所给定任务的有效性。
- 图表
- 解决问题本文旨在解决音频混合风格迁移的问题,即如何从参考歌曲中推断出音频效果控制参数,以生成高质量的混音。
- 关键思路本文提出了Diff-MST框架,包括可微分混音控制台、Transformer控制器和音频制作风格损失函数,通过输入原始音轨和参考歌曲,推断出不同iable混音控制台中的音频效果控制参数,从而生成高质量的混音,并支持后期调整。
- 其它亮点本文的亮点包括:使用了Diff-MST框架,支持任意数量的输入音轨,无需源标签;使用自定义的音频制作风格损失函数;实验结果表明,该方法优于现有的基线方法。
- 在最近的相关研究中,也有一些关于音频风格迁移的工作,如《MUSAE: Music Style Attentional Editing with Copy-Paste》和《A Universal Music Translation Network》。
沙发等你来抢
去评论
评论
沙发等你来抢