西北工业大学 | 基于说话人自适应的单样本语音转换

论文题目：ONE-SHOT VOICE CONVERSION FOR STYLE TRANSFER BASED ON SPEAKER ADAPTATION

语音转换（Voice Conversion, VC）旨在保留语言内容的同时，将源说话人语音转换成目标说话人的语音。语音转换在个性化语音合成、自动化影视配音、实时通信与娱乐等方面具有重要应用。随着深度学习技术的引入，语音转换技术取得了巨大的飞跃。现有的语音转换方法可以较好地实现音色转换，但这是建立在大量高质量目标说话人语音数据用于训练的前提之上。单样本语音转换（One-shot VC）就是关注于极少资源下（一句话，≤10s）实现目标说话人的音色复刻并且保持较高的转换质量以及表现力的一类技术。

近期，由西工大音频语音与语言处理研究组（ASLP@NPU）和网易伏羲实验室合作的论文“ONE-SHOT VOICE CONVERSION FOR STYLE TRANSFER BASED ON SPEAKER ADAPTATION”被语音研究顶级会议ICASSP2022接收。该论文提出一种基于风格迁移的说话人自适应方法，可以通过将语音分解为多种表征包括内容、说话人、风格，在极低资源的情况下中实现对于目标说话人音色的学习并且保持较好的音色相似度以及表现力。现对该论文进行简要的解读和分享。

本文提出的模型结构图

内容中包含的图片若涉及版权问题，请及时与我们联系删除

西北工业大学 | 基于说话人自适应的单样本语音转换

评论列表

评论