AttentionStitch: How Attention Solves the Speech Editing Problem

向作者提问

NEW

简介

从文本生成自然而高质量的语音是自然语言处理领域的一个具有挑战性的问题。除了语音生成外，语音编辑也是一项关键任务，需要将编辑后的语音与合成语音无缝且不被注意地集成在一起。我们提出了一种新颖的语音编辑方法，利用预训练的文本到语音（TTS）模型，如FastSpeech 2，并在其之上加入一个双重注意力块网络，以自动将合成的mel频谱图与编辑文本的mel频谱图合并。我们称这个模型为AttentionStitch，因为它利用注意力来拼接音频样本。我们在单发话人和多发话人数据集上，即LJSpeech和VCTK上，将所提出的AttentionStitch模型与最先进的基线模型进行了评估。我们通过涉及15名人类参与者的客观和主观评估测试展示了其卓越的性能。AttentionStitch能够生成高质量的语音，即使是在训练期间没有见过的单词，而且操作自动化，无需人工干预。此外，AttentionStitch在训练和推理过程中都很快，并且能够生成听起来很像人类的编辑语音。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文提出了一种基于文本转语音模型的语音编辑方法，旨在实现无需人工干预的高质量语音合成和编辑。
关键思路

论文提出了一种名为AttentionStitch的模型，通过在预训练的文本转语音模型FastSpeech 2之上添加双重注意力块网络，自动将合成的梅尔频谱图与编辑文本的梅尔频谱图无缝地融合，实现高质量语音编辑。
其它亮点

论文在LJSpeech和VCTK数据集上对AttentionStitch模型进行了评估，证明其在单说话人和多说话人数据集上都具有优越的性能。实验结果表明，AttentionStitch能够自动、快速地生成高质量的语音，并且即使对于训练集中没有出现过的单词，也能够产生自然的语音。此外，论文还提供了开源代码。
相关研究

在近期的相关研究中，有一些与本文相关的工作，例如：《MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms》、《High Fidelity Speech Synthesis with Adversarial Networks》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问