SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
解决问题:本文旨在介绍SpeechX,一种多功能语音生成模型,能够在处理干净和嘈杂的信号时实现零-shot TTS和各种语音转换任务。该模型结合了神经编解码器语言建模和多任务学习,并使用任务相关提示,为语音增强和转换任务提供了一种统一和可扩展的建模方式。
关键思路:本文提出的SpeechX模型采用了神经编解码器语言建模和多任务学习的结合,使用任务相关提示,能够在处理干净和嘈杂的信号时实现零-shot TTS和各种语音转换任务。相比当前领域的研究,该模型的创新之处在于能够处理多种语音转换任务,包括目标说话人提取、噪声抑制、语音去除和语音编辑等,并且能够在处理嘈杂信号时保持良好的性能。
其他亮点:本文的实验结果表明,SpeechX模型在各种任务中均表现出良好的效果,包括零-shot TTS、噪声抑制、目标说话人提取、语音去除和语音编辑等。此外,该模型的优点在于能够处理多种语音转换任务,并且能够在处理嘈杂信号时保持良好的性能。此外,作者还提供了在线演示样本,方便读者更好地了解该模型的效果。
关于作者:本文的主要作者包括Xiaofei Wang、Manthan Thakker、Zhuo Chen、Naoyuki Kanda、Sefik Emre Eskimez、Sanyuan Chen、Min Tang、Shujie Liu、Jinyu Li和Takuya Yoshioka。他们分别来自微软、京东、华为和日本国立信息通信技术研究所等机构。他们之前的代表作包括《Deep Voice 2: Multi-Speaker Neural Text-to-Speech》、《End-to-End Speech Translation with Knowledge Distillation》等。
相关研究:近期其他相关的研究包括《MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms》(Kumar et al.,2021,IIT Madras)、《Hierarchical Generative Modeling for Controllable Speech Synthesis》(Hsu et al.,2021,台湾大学)等。
论文摘要:最近,基于音频文本提示的生成式语音模型的发展使得高质量的零样本文本到语音变得可能。然而,现有的模型在处理涉及输入语音转换和处理在恶劣声学条件下捕获的音频等多样化的音频文本语音生成任务方面仍存在局限性。本文介绍了SpeechX,这是一个多功能语音生成模型,能够进行零样本TTS和各种语音转换任务,处理干净和嘈杂的信号。SpeechX将神经编解码语言建模与多任务学习相结合,使用任务相关提示,实现了统一和可扩展的建模,并提供了一种一致的方式来利用文本输入进行语音增强和转换任务。实验结果显示,SpeechX在各种任务中的有效性,包括零样本TTS、噪声抑制、目标说话人提取、语音去除和带或不带背景噪声的语音编辑,实现了与专门模型相当或更好的性能。请访问https://aka.ms/speechx以获取演示样本。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢