- 简介随着人工智能生成内容(AIGC)的发展,文本转音频模型正在受到广泛关注。然而,由于自然语言的内在信息密度和模型理解能力的限制,这些模型生成的音频很难与人类偏好相一致。为了缓解这个问题,我们设计了BATON框架,旨在通过人类偏好反馈来增强生成音频与文本提示之间的对齐。我们的BATON包括三个关键阶段:首先,我们策划了一个包含提示和相应生成音频的数据集,然后基于人类反馈进行了注释。其次,我们引入了一个奖励模型,该模型使用构建的数据集可以模仿人类偏好,为输入的文本-音频对分配奖励。最后,我们使用奖励模型来微调一个现成的文本转音频模型。实验结果表明,我们的BATON可以显著提高原始文本转音频模型的生成质量,涉及音频完整性、时间关系和与人类偏好的对齐。
-
- 图表
- 解决问题论文试图通过引入人类偏好反馈,提高文本转语音模型生成音频与文本的对齐度,解决AI生成内容中文本转语音的对齐问题。
- 关键思路提出了一种名为BATON的框架,包括三个关键步骤:构建数据集,引入奖励模型,使用奖励模型微调现有的文本转语音模型。通过这种方式,可以提高生成音频的完整性、时间关系和与人类偏好的对齐度。
- 其它亮点论文通过构建数据集,引入奖励模型和微调现有模型的方法,显著提高了文本转语音模型的生成质量。实验使用的数据集和代码都已经开源,可以为该领域的后续研究提供参考。
- 在该领域的相关研究中,也有一些使用奖励模型的方法来提高生成质量的研究,例如《Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning》、《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流