A Stem-Agnostic Single-Decoder System for Music Source Separation Beyond Four Stems

2024年06月26日
  • 简介
    尽管在音频源分离的多个子任务方面已经取得了显著的进展,但很少有音乐源分离系统支持超过四个音轨的分离,包括人声、鼓、低音和其他(VDBO)设置。目前支持超出此设置的源分离系统非常少,其中大多数仍然依赖于不灵活的解码器设置,只能支持一组固定预定义的音轨。在这些不灵活的系统中增加音轨支持相应地需要增加计算复杂度,这使得这些系统的扩展在长尾乐器方面变得计算上不可行。在这项工作中,我们提出了Banquet,这是一个使用一个解码器允许多个音轨源分离的系统。一个频带分离源模型被扩展为在与音乐乐器识别PaSST模型配合的基于查询的设置中工作。在MoisesDB数据集上,Banquet仅有24.9 M可训练参数,接近显著更为复杂的6音轨混合变压器Demucs在VDBO音轨上的性能水平,并在吉他和钢琴方面表现出色。基于查询的设置允许分离狭窄的乐器类别,例如干净的原声吉他,并且可以成功地应用于提取诸如簧片和风琴等不常见的音轨。实现可在https://github.com/kwatcharasupat/query-bandit找到。
  • 图表
  • 解决问题
    论文旨在解决音频源分离的问题,即如何从多个音频流中分离出单个乐器的音频信号。当前的音频源分离系统大多只支持分离四个音频流(人声、鼓、贝斯和其他),而且这些系统对于长尾乐器的支持较弱。
  • 关键思路
    该论文提出了一种名为Banquet的系统,它使用一个解码器来实现多个音频流的源分离。该系统使用带通源分离模型,结合音乐乐器识别模型,以查询为基础的设置来实现分离。Banquet可以成功地分离出清洁的木吉他等狭窄的乐器类别,并可用于提取较少见的音频流。
  • 其它亮点
    论文在MoisesDB数据集上进行了实验,Banquet只有24.9M个可训练参数,就接近了显著更复杂的6个音频流的Hybrid Transformer Demucs在VDBO音频流上的性能水平,并在吉他和钢琴上表现更好。Banquet的查询式设置可以成功地分离出清洁的木吉他等狭窄的乐器类别,并可用于提取较少见的音频流。Banquet的实现代码已经开源。
  • 相关研究
    在音频源分离领域,最近的相关研究包括:1. End-to-end音频源分离的Transformer-based方法;2. 使用深度学习的音频源分离方法;3. 基于模型的音频源分离方法。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论