- 简介开放的生成模型对于社区非常重要,可以进行微调,并作为呈现新模型时的基线。然而,大多数当前的文本到音频模型是私有的,无法让艺术家和研究人员进行扩展。在这里,我们描述了一个新的开放权重文本到音频模型的架构和训练过程,该模型使用了创意共享数据进行训练。我们的评估显示,该模型在各种指标上的表现与最先进的模型相当。值得注意的是,报告的FDopenl3结果(衡量生成物真实性的指标)展示了其在44.1kHz的高质量立体声合成的潜力。
- 图表
- 解决问题本论文旨在介绍一种新的开源文本到音频模型,解决当前大多数文本到音频模型私有且不易获取的问题,同时验证其在多个指标上的性能竞争力。
- 关键思路该模型的关键思路是使用Creative Commons数据训练,并采用了一种新颖的架构和训练过程,使其在44.1kHz的高质量立体声合成方面具有潜力。
- 其它亮点论文的亮点在于使用开源数据集进行训练,模型的性能表现与当前领域的最新研究相当,尤其是在FDopenl3指标上表现出了高度逼真的声音合成能力。此外,论文还提供了开源代码,并探讨了未来研究的方向。
- 最近的相关研究包括Tacotron 2和WaveNet等文本到语音模型,以及其他使用Creative Commons数据的音频生成模型,例如GANSynth和MelGAN。


提问交流