- 简介将象征性音乐用复合标记表示,其中每个标记由几个不同的子标记组成,代表不同的音乐特征或属性,有利于减少序列长度。虽然以前的研究已经验证了复合标记在音乐序列建模中的有效性,但同时预测所有子标记可能会导致次优结果,因为它可能无法充分捕捉它们之间的相互依赖关系。我们介绍了Nested Music Transformer(NMT),这是一种专门为自回归解码复合标记而设计的架构,类似于处理扁平标记,但具有低内存使用率。NMT由两个Transformer组成:主解码器用于建模复合标记序列,子解码器用于建模每个复合标记的子标记。实验结果表明,将NMT应用于复合标记可以提高处理各种象征性音乐数据集和MAESTRO数据集的离散音频标记的性能,表现为更好的困惑度。
-
- 图表
- 解决问题本文旨在解决用复合令牌表示符号音乐的问题,同时验证Nested Music Transformer(NMT)模型在处理复合令牌方面的有效性。这是否是一个新问题?
- 关键思路本文提出了一种特定的架构,即Nested Music Transformer(NMT),用于自回归地解码复合令牌,以更好地捕获其中的子令牌之间的相互依赖关系。与先前的研究相比,NMT通过使用两个transformer(主解码器和子解码器)来处理复合令牌,以减少序列长度和内存使用,从而提高了处理复合令牌的性能。
- 其它亮点本文的实验结果表明,NMT模型在处理各种符号音乐数据集和MAESTRO数据集的离散音频令牌时,具有更好的困惑度表现。此外,本文还提供了开源代码,为后续研究提供了便利。
- 在符号音乐序列建模领域,已经有许多研究探索了复合令牌的应用。例如,之前的研究使用了多种方法来处理复合令牌,如将其视为单个令牌或通过将其分解为其组成部分。此外,还有一些研究关注于使用transformer模型来处理符号音乐序列。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流