BATON: Aligning Text-to-Audio Model with Human Preference Feedback

2024年02月01日
  • 简介
    随着人工智能生成内容(AIGC)的发展,文本转音频模型正在受到广泛关注。然而,由于自然语言的内在信息密度和模型理解能力的限制,这些模型生成的音频很难与人类偏好相一致。为了缓解这个问题,我们设计了BATON框架,旨在通过人类偏好反馈来增强生成音频与文本提示之间的对齐。我们的BATON包括三个关键阶段:首先,我们策划了一个包含提示和相应生成音频的数据集,然后基于人类反馈进行了注释。其次,我们引入了一个奖励模型,该模型使用构建的数据集可以模仿人类偏好,为输入的文本-音频对分配奖励。最后,我们使用奖励模型来微调一个现成的文本转音频模型。实验结果表明,我们的BATON可以显著提高原始文本转音频模型的生成质量,涉及音频完整性、时间关系和与人类偏好的对齐。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图通过引入人类偏好反馈,提高文本转语音模型生成音频与文本的对齐度,解决AI生成内容中文本转语音的对齐问题。
  • 关键思路
    提出了一种名为BATON的框架,包括三个关键步骤:构建数据集,引入奖励模型,使用奖励模型微调现有的文本转语音模型。通过这种方式,可以提高生成音频的完整性、时间关系和与人类偏好的对齐度。
  • 其它亮点
    论文通过构建数据集,引入奖励模型和微调现有模型的方法,显著提高了文本转语音模型的生成质量。实验使用的数据集和代码都已经开源,可以为该领域的后续研究提供参考。
  • 相关研究
    在该领域的相关研究中,也有一些使用奖励模型的方法来提高生成质量的研究,例如《Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning》、《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问