Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization

简介

本文提出了一种称为“反向推断优化（RIO）”的简单而有效的方法，旨在通过从人类反馈中使用强化学习来增强基于自回归模型的零样本文本到语音（TTS）系统的鲁棒性。为了评估TTS系统生成的语音质量，RIO引入了一种新颖的概念，即基于贝叶斯原理的反向推断，该原理表明高质量的生成语音应该能够用作后续使用相同TTS模型进行生成的提示。通过利用反向推断作为从TTS系统自身生成的语音样本中选择用于RLHF的范例的标准，RIO将后续优化引导到增强TTS鲁棒性的方向。RIO框架包括采样、自动注释和学习，无需奖励模型或成对偏好数据，显著改善了零样本TTS性能的稳定性，减少了训练和推断条件之间的差异。我们的实验结果验证了RIO可以有效地改善主观和客观指标，包括平均意见分数、词错误率和说话人相似度。值得注意的是，RIO也可以将错误输出的发生率减少到几乎为零的百分比，与使用地面真实语音作为提示时的鲁棒性相媲美。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提出一种名为反向推断优化（RIO）的方法，通过人类反馈的强化学习来增强基于自回归模型的零样本文本到语音（TTS）系统的鲁棒性。
关键思路

RIO引入了一种新颖的概念，即基于贝叶斯原理的反向推断，通过选择TTS系统生成的语音样本来进行RLHF，从而将后续优化引导到增强TTS系统鲁棒性的方向。
其它亮点

RIO框架包括采样、自动注释和学习三个部分，无需奖励模型或成对偏好数据，显著提高了零样本TTS性能的稳定性，实验结果验证了RIO有效地提高了主观和客观指标，包括平均意见分数、词错误率和说话人相似度。
相关研究

最近的相关研究包括基于零样本学习的TTS、基于强化学习的TTS和基于元学习的TTS等。

Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization

提问交流

提问交流