VALL-E：微软面向语音合成的语言模型，三秒样本就能学会一个人的声音特征

微软推出语音模型VALL-E，该模型通过三秒钟音频样本就可模拟一个人的声音，同时可以保持说话人的情感语气。VALL-E除了可进行语音生成和编辑，还能够模仿语音环境，目标是尽量是学会一个人的声音特征。

VALL-E 是一种新的面向 TTS （text to speech synthesis）的神经编解码语言模型，具有强大的上下文学习能力，可实现与最先进技术相比的卓越零样本生成性能，基于Meta于2022年10月宣布的名为EnCodec的技术。

论文地址：https://arxiv.org/abs/2301.02111

项目地址：https://valle-demo.github.io

作者：微软亚研韦福如组，三位共同一作：

王程一，南开与微软研究院联合培养的博士
陈三元，哈工大与微软研究院联合培养的博士
吴俣，微软亚研研究员，北航博士。

论文更多阅读：神经编解码器语言模型是零样本文本到语音合成器

提出 VALL-E，一种神经编解码语言模型，用于文本到语音合成(TTS)，能学习上下文并仅用3秒没见过的说话者录音作为提示进行零样本合成；

VALL-E 将 TTS 视为使用音频编解码代码作为中间表示的语言建模任务，而不是之前方法中的连续信号回归；

VALL-E 能用相同的输入文本提供不同的输出，并保留所提示的声学环境和说话者的情感；

在 LibriSpeech 和 VCTK 上的评估结果显示，在自然度和说话人相似度方面，VALL-E 明显优于最先进的零样本 TTS 系统。

目前，微软在Meta的LibriLight的音频库加入了VALL-E的语音合成功能。音频库包括60,000小时英语演讲内容，均为LibriVox公共领域有声读物。

VALL-E提供了数十个人工智能模型的音频示例，研究人员只将三秒钟的“扬声器提示”样本和文本字符串（他们希望语音说的话）输入VALL-E即可生成。

除了保留声色和情感音调外，VALL-E还可以模仿样本音频的“声学环境”。例如，如果样本来自电话，音频输出将模拟电话的合成输出中的声学和频率特性，让它听起来也像一个电话。

目前研究员意识到VALL-E可能会“骗人”，因此微软VALL-E代码尚未开源，他们表示：由于VALL-E的合成语音功能。也许会带来潜在风险，比如欺骗语音识别或冒充特定的声音，需要规避这个风险，可以再建立一个检测模型来区分音频剪辑是否由VALL-E合成。

VALL-E：微软面向语音合成的语言模型，三秒样本就能学会一个人的声音特征

相关信息

评论列表

评论