Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models

简介

本文提出并研究了使用神经音频编解码器语言模型来自动生成基于文本或参考音频提示的基于样本的乐器。我们的方法扩展了一个生成音频框架，以跨越88个键的音高，速度和结合文本/音频嵌入进行条件化。我们确定在生成的乐器中保持音色一致性是一个重要的挑战。为了解决这个问题，我们引入了三种不同的条件化方案。我们通过客观指标和人类听测试来分析我们的方法，证明了我们的方法可以产生引人入胜的乐器。具体而言，我们引入了一种新的客观指标来评估生成乐器的音色一致性，并调整了文本到乐器情况下的平均对比语言音频预训练（CLAP）分数，指出其天真的应用不适用于评估此任务。我们的研究结果揭示了音色一致性，生成样本的质量以及它们与输入提示的对应之间的复杂相互作用。
图表
解决问题

本文提出了使用神经音频编解码器语言模型，基于文本或参考音频提示自动生成基于样本的音乐乐器的方法，并探讨了如何在88个键的频谱、速度和文本/音频嵌入的条件下实现。同时，本文还发现在生成的乐器中保持音色一致性是一个重要的挑战。
关键思路

本文提出了三种不同的条件方案来解决音色一致性的问题，并通过客观指标和人类听测试验收了该方法的有效性。
其它亮点

本文提出了一种新的客观指标来评估生成乐器的音色一致性，并适应了文本到乐器的平均对比语言-音频预训练（CLAP）分数。本文的实验结果表明，该方法可以生成具有吸引力的音乐乐器。
相关研究

近年来，基于样本的音乐生成已经成为了人工智能领域的研究热点。已有的相关研究包括："SampleRNN: An Unconditional End-to-End Neural Audio Generation Model"和"WaveNet: A Generative Model for Raw Audio"等。

Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models

评论