SpeechAlign: Aligning Speech Generation to Human Preferences

2024年04月08日
  • 简介
    语音语言模型在生成逼真语音方面有了显著进展,神经编解码语言模型尤为突出。然而,将人类反馈整合到语音输出以使其符合人类偏好的问题经常被忽视。本文首先分析了编解码语言模型中的分布差异问题,强调了它导致训练和推断阶段之间存在差异,从而对性能产生负面影响。然后,我们探讨了如何利用人类反馈来弥合分布差距。我们介绍了SpeechAlign,这是一种迭代的自我改进策略,可以将语音语言模型与人类偏好相一致。SpeechAlign包括构建一个偏好编解码数据集,将金标准编解码令牌与合成令牌进行对比,然后进行偏好优化以改进编解码语言模型。这种改进循环是迭代进行的,可以逐步将弱模型转化为强模型。通过主观和客观评估,我们展示了SpeechAlign可以弥合分布差距,并促进语音语言模型的持续自我改进。此外,SpeechAlign表现出鲁棒的泛化能力,并适用于较小的模型。代码和模型可在https://github.com/0nutation/SpeechGPT上获取。
  • 图表
  • 解决问题
    解决问题:论文试图通过整合人类反馈来解决神经编解码语言模型中的分布差异问题,以提高语音生成的性能。
  • 关键思路
    关键思路:论文提出了一种迭代的自我改进策略SpeechAlign,该策略通过构建偏好编解码数据集来整合人类反馈,以缩小训练和推理阶段之间的分布差异,从而提高语言模型的性能。
  • 其它亮点
    其他亮点:论文通过主观和客观的评估表明SpeechAlign可以缩小分布差异,并促进语言模型的持续自我改进。SpeechAlign还具有强大的泛化能力,并适用于较小的模型。论文提供了代码和模型的开源。
  • 相关研究
    相关研究:目前在神经编解码语言模型领域,已经有很多相关的研究,例如《MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms》、《Neural Voice Puppetry: Audio-driven Facial Reenactment》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论