BandControlNet: Parallel Transformers-based Steerable Popular Music Generation with Fine-Grained Spatiotemporal Features

2024年07月15日
  • 简介
    可控音乐生成通过将用户意图投射到所需音乐上,促进了人类与作曲系统之间的互动。在符号音乐生成领域,引入可控性的挑战是一个越来越重要的问题。当构建可控的多乐器流行音乐生成系统时,通常会出现两个主要挑战,即可控性较弱和音乐质量较差。为了解决这些问题,我们首先提出了时空特征作为强大而细粒度的控制,以增强生成模型的可控性。此外,设计了一种高效的音乐表示 REMI_Track,将多轨音乐转换为多个并行音乐序列,并使用字节对编码(BPE)技术缩短每个轨道的序列长度。随后,我们发布了 BandControlNet,这是一个基于并行 Transformer 的条件模型,用于处理多个音乐序列,并生成受给定时空控制特征限制的高质量音乐样本。更具体地说,BandControlNet 的两个特别设计的模块,即结构增强自注意力(SE-SA)和跨轨道 Transformer(CTT),分别用于加强生成的音乐结构和跨轨道和谐建模。在两个长度不同的流行音乐数据集上进行的实验结果表明,所提出的 BandControlNet 在大多数客观指标方面优于其他条件音乐生成模型,包括保真度和推理速度,并且在生成长音乐样本方面表现出很高的鲁棒性。主观评估表明,训练在短数据集上的 BandControlNet 可以生成与最先进的模型相当质量的音乐,而在使用更长的数据集时显着优于它们。
  • 图表
  • 解决问题
    如何在生成多轨音乐时提高模型的可控性和音乐质量?
  • 关键思路
    使用时空特征作为控制信号,设计 REMI_Track 音乐表示方法和 BandControlNet 模型,其中包括结构增强自注意力和跨轨道变换器模块,以提高音乐结构和跨轨道和谐建模能力。
  • 其它亮点
    使用 REMI_Track 可以将多轨音乐转换为多个平行音乐序列,并使用 Byte Pair Encoding 技术缩短每个轨道的序列长度。BandControlNet 在两个不同长度的数据集上进行实验,表现出较好的生成音乐质量和推理速度,且在生成长音乐样本方面表现出很好的鲁棒性。
  • 相关研究
    与该论文相关的研究包括:基于 Transformer 的条件音乐生成模型、使用自注意力机制的音乐生成模型、使用时空特征的音乐生成模型等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论