标题:清华大学|Dependency Parsing based Semantic Representation Learning with Graph Neural Network for Enhancing Expressiveness of Text-to-Speech(图神经网络的基于语义解析的语义表示学习可增强文本到语音的表达能力)

简介:句子的语义信息对于提高文本语音转换(TTS)系统的表达能力至关重要,但是仅依靠当今的编码器结构,就无法从有限的训练TTS数据集中很好地学习句子的语义信息。随着大规模预训练文本表示的发展,来自变换器(BERT)的双向编码器表示已被证明可体现文本上下文语义信息,并已作为附加输入应用于TTS。但是,BERT无法从句子中的依赖关系角度显式关联语义标记。为了提高表达能力,作者提出了一种基于图神经网络的,考虑句子依存关系的语义表示学习方法。输入文本的依存关系图由依存关系树结构的边组成,同时考虑了正向和反向。然后由关系门控图网络(RGGN)在单词级别上提取语义表示,并从BERT获得特征作为节点输入。上采样的语义表示和字符级嵌入被串联起来用作Tacotron-2的编码器输入。实验结果表明,我们提出的方法在LJSpeech和Bilzzard Challenge 2013数据集中使用纯BERT特征均优于基线,并且从反方向学习的语义表示在增强表达能力方面更为有效。

论文链接:https://arxiv.org/pdf/2104.06835.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除