BATON: Aligning Text-to-Audio Model with Human Preference Feedback

向作者提问

NEW

简介

随着人工智能生成内容（AIGC）的发展，文本转音频模型正在受到广泛关注。然而，由于自然语言的内在信息密度和模型理解能力的限制，这些模型生成的音频很难与人类偏好相一致。为了缓解这个问题，我们设计了BATON框架，旨在通过人类偏好反馈来增强生成音频与文本提示之间的对齐。我们的BATON包括三个关键阶段：首先，我们策划了一个包含提示和相应生成音频的数据集，然后基于人类反馈进行了注释。其次，我们引入了一个奖励模型，该模型使用构建的数据集可以模仿人类偏好，为输入的文本-音频对分配奖励。最后，我们使用奖励模型来微调一个现成的文本转音频模型。实验结果表明，我们的BATON可以显著提高原始文本转音频模型的生成质量，涉及音频完整性、时间关系和与人类偏好的对齐。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图通过引入人类偏好反馈，提高文本转语音模型生成音频与文本的对齐度，解决AI生成内容中文本转语音的对齐问题。
关键思路

提出了一种名为BATON的框架，包括三个关键步骤：构建数据集，引入奖励模型，使用奖励模型微调现有的文本转语音模型。通过这种方式，可以提高生成音频的完整性、时间关系和与人类偏好的对齐度。
其它亮点

论文通过构建数据集，引入奖励模型和微调现有模型的方法，显著提高了文本转语音模型的生成质量。实验使用的数据集和代码都已经开源，可以为该领域的后续研究提供参考。
相关研究

在该领域的相关研究中，也有一些使用奖励模型的方法来提高生成质量的研究，例如《Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning》、《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问