Creative Text-to-Audio Generation via Synthesizer Programming

简介

神经音频合成方法现在允许使用自然语言指定想法。然而，这些方法产生的结果很难调整，因为它们基于大型潜在空间和多达数十亿个不可解释的参数。我们提出了一种文本到音频生成方法，利用只有78个参数的虚拟模块化声音合成器。由于其灵活性和直观的控制，合成器长期以来一直被熟练的声音设计师用于像音乐和电影这样的媒体。我们的方法CTAG，通过迭代更新合成器的参数，产生文本提示的高质量音频渲染，这些渲染可以轻松检查和调整。这种方式产生的声音也更加抽象，捕捉基本的概念特征而非细粒度的声学细节，类似于简单的素描可以生动地传达视觉概念。我们的结果显示，CTAG产生的声音具有独特性，被认为是艺术性的，但与最近的神经音频合成模型同样可识别，使其成为一种有价值且互补的工具。
图表
解决问题

该论文旨在解决自然语言生成音频时难以调整的问题，提出一种使用虚拟模块化声音合成器的文本生成音频方法。
关键思路

该方法使用只有78个参数的合成器，通过迭代更新参数来生成高质量的音频，并且这些音频可以轻松检查和调整。
其它亮点

该方法产生的音频更为抽象，捕捉了基本的概念特征，而不是细粒度的声学细节，类似于简单的草图可以生动地传达视觉概念。该方法的结果显示，它产生的声音是独特的，被认为是艺术性的，并且与最近的神经音频合成模型类似，因此是一种有价值的补充工具。
相关研究

在最近的相关研究中，有一些论文探讨了使用神经网络生成音频的方法，例如Tacotron 2和WaveNet。

Creative Text-to-Audio Generation via Synthesizer Programming

评论