Stable Audio Open

简介

开放式生成模型对于社区来说非常重要，因为它们允许进行微调，并在提出新模型时作为基准。然而，大多数当前的文本到音频模型都是私有的，无法供艺术家和研究人员构建。在这里，我们描述了一个新的开放权重文本到音频模型的架构和训练过程，该模型使用创意共用数据进行训练。我们的评估显示，该模型在各种指标上的表现与最先进的模型相当。值得注意的是，报告的FDopenl3结果（衡量生成物真实性的指标）展示了其在44.1kHz下进行高质量立体声声音合成的潜力。
图表
解决问题

开放式文本到音频生成模型的缺乏，限制了艺术家和研究人员的创作和研究。本论文旨在提出一种基于Creative Commons数据训练的开放式文本到音频生成模型，并验证其性能是否达到了当前领域的最高水平。
关键思路

本论文提出了一种基于Creative Commons数据训练的文本到音频生成模型，并采用了一些新的技术来提高生成音频的质量和逼真度。
其它亮点

论文使用Creative Commons数据集进行了实验，并开放了代码，让更多人可以使用和改进。实验结果表明，该模型在各项指标上都达到了当前领域的最高水平。值得深入研究的是，该模型在FDopenl3指标上表现出了高质量的立体声声音合成潜力。
相关研究

在这个领域中，最近的相关研究包括：1. Tacotron 2: Generating Human-like Speech from Text (2017); 2. Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning (2019); 3. MelNet: A Generative Model for Audio in the Frequency Domain (2020)。

评论