- 简介开放式生成模型对于社区来说非常重要,因为它们允许进行微调,并在提出新模型时作为基准。然而,大多数当前的文本到音频模型都是私有的,无法供艺术家和研究人员构建。在这里,我们描述了一个新的开放权重文本到音频模型的架构和训练过程,该模型使用创意共用数据进行训练。我们的评估显示,该模型在各种指标上的表现与最先进的模型相当。值得注意的是,报告的FDopenl3结果(衡量生成物真实性的指标)展示了其在44.1kHz下进行高质量立体声声音合成的潜力。
- 图表
- 解决问题开放式文本到音频生成模型的缺乏,限制了艺术家和研究人员的创作和研究。本论文旨在提出一种基于Creative Commons数据训练的开放式文本到音频生成模型,并验证其性能是否达到了当前领域的最高水平。
- 关键思路本论文提出了一种基于Creative Commons数据训练的文本到音频生成模型,并采用了一些新的技术来提高生成音频的质量和逼真度。
- 其它亮点论文使用Creative Commons数据集进行了实验,并开放了代码,让更多人可以使用和改进。实验结果表明,该模型在各项指标上都达到了当前领域的最高水平。值得深入研究的是,该模型在FDopenl3指标上表现出了高质量的立体声声音合成潜力。
- 在这个领域中,最近的相关研究包括:1. Tacotron 2: Generating Human-like Speech from Text (2017); 2. Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning (2019); 3. MelNet: A Generative Model for Audio in the Frequency Domain (2020)。
沙发等你来抢
去评论
评论
沙发等你来抢