Reinforcement Learning for Fine-tuning Text-to-speech Diffusion Models

2024年05月23日
  • 简介
    最近,生成模型的进展在机器学习社区引起了极大的兴趣。特别是,扩散模型在合成图像和语音方面表现出了卓越的能力。例如,李等人[19]、布莱克等人[4]、王等人[36]和范等人[8]的研究表明,通过人类反馈的强化学习(RLHF)可以增强扩散模型的图像合成能力。然而,由于这些模型与语音合成所采用的模型之间的架构差异,目前尚不确定RLHF是否也能同样有益于语音合成模型。本文探讨了RLHF在基于扩散的文本到语音合成中的实际应用,利用预测的UTokyo-SaruLab MOS预测系统[29]的平均意见分数(MOS)作为代理损失。我们引入了扩散模型损失引导的RL策略优化(DLPO),并将其与其他RLHF方法进行比较,采用NISQA语音质量和自然度评估模型[21]和人类偏好实验进行进一步评估。我们的结果表明,RLHF可以增强基于扩散的文本到语音合成模型,而且DLPO可以更好地提高扩散模型在生成自然高质量语音音频方面的能力。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在探索如何将强化学习与人类反馈(RLHF)应用于基于扩散模型的文本到语音合成,以提高语音合成模型的自然度和音质。
  • 关键思路
    本论文提出了一种基于扩散模型损失引导的RL策略优化(DLPO)方法,使用UTokyo-SaruLab MOS预测系统的MOS作为代理损失,以增强扩散模型的文本到语音合成能力。
  • 其它亮点
    论文使用NISQA语音质量和自然度评估模型以及人类偏好实验进行了进一步评估。结果表明,RLHF可以提高扩散模型的文本到语音合成能力,DLPO方法可以更好地提高扩散模型生成自然和高质量的语音音频的能力。
  • 相关研究
    近期的相关研究包括Lee等人、Black等人、Wang等人和Fan等人的研究,探索了如何利用RLHF增强扩散模型的图像合成能力。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问