YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation

简介

多乐器音乐转录的目的是将多声部音乐录音转换为每个乐器分配的乐谱。这项任务对于建模来说具有挑战性，因为它需要同时识别多个乐器并转录它们的音高和精确时间，并且缺乏完全注释的数据增加了训练的困难。本文介绍了YourMT3+，这是一套基于MT3最新的语言令牌解码方法的增强多乐器音乐转录模型。我们通过在时频域中采用分层注意力变换器并集成专家混合模型（MoE）来加强其编码器。为了解决数据限制问题，我们引入了一种新的多通道解码方法，用于训练不完整注释的数据，并提出了数据集混合的内部和跨干扰增强方法。我们的实验展示了直接人声转录的能力，消除了需要语音分离预处理器的需求。在十个公共数据集上进行的基准测试显示，我们的模型与现有的转录模型相比具有竞争力或优越性。在流行音乐录音上进行的进一步测试突显了当前模型的局限性。完全可重现的代码和数据集可在\url{https://github.com/mimbres/YourMT3}上获得。
图表
解决问题

本论文旨在解决多乐器音乐转录的问题，即将多声部音乐录音转换为每个乐器分配的乐谱。同时，该论文还试图解决数据不完整的情况下训练困难的问题。
关键思路

论文采用了一种基于MT3的语言令牌解码方法，通过采用时频域中的分层注意力变换器和专家混合（MoE）来加强其编码器。此外，为了解决数据不完整的问题，论文还提出了一种新的多通道解码方法和数据集混合的增强方法。
其它亮点

论文的实验结果表明，该模型可以直接进行人声转录，无需使用音频分离预处理器。在十个公共数据集上的基准测试显示，该模型具有与或优于现有转录模型的竞争力。此外，论文还提供了可完全复现的代码和数据集。
相关研究

在最近的研究中，还有一些相关的工作，例如《End-to-End Neural Audio Transcription》，《Music Transformer: Generating Music with Long-Term Structure》，《On the Potential of Simple Framewise Approaches to Piano Transcription》等。

YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation

评论