Nested Music Transformer: Sequentially Decoding Compound Tokens in Symbolic Music and Audio Generation

向作者提问

NEW

简介

将象征性音乐用复合标记表示，其中每个标记由几个不同的子标记组成，代表不同的音乐特征或属性，有利于减少序列长度。虽然以前的研究已经验证了复合标记在音乐序列建模中的有效性，但同时预测所有子标记可能会导致次优结果，因为它可能无法充分捕捉它们之间的相互依赖关系。我们介绍了Nested Music Transformer（NMT），这是一种专门为自回归解码复合标记而设计的架构，类似于处理扁平标记，但具有低内存使用率。NMT由两个Transformer组成：主解码器用于建模复合标记序列，子解码器用于建模每个复合标记的子标记。实验结果表明，将NMT应用于复合标记可以提高处理各种象征性音乐数据集和MAESTRO数据集的离散音频标记的性能，表现为更好的困惑度。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决用复合令牌表示符号音乐的问题，同时验证Nested Music Transformer（NMT）模型在处理复合令牌方面的有效性。这是否是一个新问题？
关键思路

本文提出了一种特定的架构，即Nested Music Transformer（NMT），用于自回归地解码复合令牌，以更好地捕获其中的子令牌之间的相互依赖关系。与先前的研究相比，NMT通过使用两个transformer（主解码器和子解码器）来处理复合令牌，以减少序列长度和内存使用，从而提高了处理复合令牌的性能。
其它亮点

本文的实验结果表明，NMT模型在处理各种符号音乐数据集和MAESTRO数据集的离散音频令牌时，具有更好的困惑度表现。此外，本文还提供了开源代码，为后续研究提供了便利。
相关研究

在符号音乐序列建模领域，已经有许多研究探索了复合令牌的应用。例如，之前的研究使用了多种方法来处理复合令牌，如将其视为单个令牌或通过将其分解为其组成部分。此外，还有一些研究关注于使用transformer模型来处理符号音乐序列。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问