Reinforcement Learning for Fine-tuning Text-to-speech Diffusion Models

简介

最近，生成模型的进展在机器学习社区引起了极大的兴趣。特别是，扩散模型在合成图像和语音方面表现出了卓越的能力。例如，李等人[19]、布莱克等人[4]、王等人[36]和范等人[8]的研究表明，通过人类反馈的强化学习（RLHF）可以增强扩散模型的图像合成能力。然而，由于这些模型与语音合成所采用的模型之间的架构差异，目前尚不确定RLHF是否也能同样有益于语音合成模型。本文探讨了RLHF在基于扩散的文本到语音合成中的实际应用，利用预测的UTokyo-SaruLab MOS预测系统[29]的平均意见分数（MOS）作为代理损失。我们引入了扩散模型损失引导的RL策略优化（DLPO），并将其与其他RLHF方法进行比较，采用NISQA语音质量和自然度评估模型[21]和人类偏好实验进行进一步评估。我们的结果表明，RLHF可以增强基于扩散的文本到语音合成模型，而且DLPO可以更好地提高扩散模型在生成自然高质量语音音频方面的能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探索如何将强化学习与人类反馈（RLHF）应用于基于扩散模型的文本到语音合成，以提高语音合成模型的自然度和音质。
关键思路

本论文提出了一种基于扩散模型损失引导的RL策略优化（DLPO）方法，使用UTokyo-SaruLab MOS预测系统的MOS作为代理损失，以增强扩散模型的文本到语音合成能力。
其它亮点

论文使用NISQA语音质量和自然度评估模型以及人类偏好实验进行了进一步评估。结果表明，RLHF可以提高扩散模型的文本到语音合成能力，DLPO方法可以更好地提高扩散模型生成自然和高质量的语音音频的能力。
相关研究

近期的相关研究包括Lee等人、Black等人、Wang等人和Fan等人的研究，探索了如何利用RLHF增强扩散模型的图像合成能力。

Reinforcement Learning for Fine-tuning Text-to-speech Diffusion Models

提问交流

提问交流