Stable Audio Open

Zach Evans ,
Julian D. Parker ,
CJ Carr ,
Zack Zukowski ,
Josiah Taylor ,
Jordi Pons
585
热度
2024年07月19日
  • 简介
    开放式生成模型对于社区来说非常重要,因为它们允许进行微调,并在提出新模型时作为基准。然而,大多数当前的文本到音频模型都是私有的,无法供艺术家和研究人员构建。在这里,我们描述了一个新的开放权重文本到音频模型的架构和训练过程,该模型使用创意共用数据进行训练。我们的评估显示,该模型在各种指标上的表现与最先进的模型相当。值得注意的是,报告的FDopenl3结果(衡量生成物真实性的指标)展示了其在44.1kHz下进行高质量立体声声音合成的潜力。
  • 图表
  • 解决问题
    开放式文本到音频生成模型的缺乏,限制了艺术家和研究人员的创作和研究。本论文旨在提出一种基于Creative Commons数据训练的开放式文本到音频生成模型,并验证其性能是否达到了当前领域的最高水平。
  • 关键思路
    本论文提出了一种基于Creative Commons数据训练的文本到音频生成模型,并采用了一些新的技术来提高生成音频的质量和逼真度。
  • 其它亮点
    论文使用Creative Commons数据集进行了实验,并开放了代码,让更多人可以使用和改进。实验结果表明,该模型在各项指标上都达到了当前领域的最高水平。值得深入研究的是,该模型在FDopenl3指标上表现出了高质量的立体声声音合成潜力。
  • 相关研究
    在这个领域中,最近的相关研究包括:1. Tacotron 2: Generating Human-like Speech from Text (2017); 2. Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning (2019); 3. MelNet: A Generative Model for Audio in the Frequency Domain (2020)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论