Speaker-Independent Acoustic-to-Articulatory Inversion through Multi-Channel Attention Discriminator

向作者提问

NEW

简介

我们提出了一种新颖的说话人无关的声学到发音反演（AAI）模型，克服了传统AAI模型的局限性，这些模型依赖于从受限数据集派生的声学特征。为了解决这些挑战，我们利用预先训练的自监督学习（SSL）模型的表示，更有效地估计AAI过程中电磁发音学（EMA）信号中的全局、局部和运动模式信息。我们使用对抗方法训练我们的模型，并引入了基于注意力的多持续音素鉴别器（MDPD），旨在充分捕捉多通道发音信号之间的复杂关系。我们的方法达到了0.847的Pearson相关系数，标志着说话人无关的AAI模型的最新性能。实现细节和代码可以在线找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决传统AAI模型依赖于受限数据集派生的声学特征的限制，并提出了一种新的模型来更有效地估计EMA信号中的全局、局部和运动学模式信息。
关键思路

论文中提出了一种基于预训练的自监督学习模型的表示方法，通过对抗方法训练模型，并引入基于注意力机制的多长度音素鉴别器(MDPD)来完全捕捉多通道关节信号之间的复杂关系，从而实现了说话人无关AAI模型的最新性能。
其它亮点

该模型在说话人无关AAI模型中实现了最新的性能，达到了0.847的皮尔逊相关系数。论文使用了自监督学习和对抗训练等方法，设计了多长度音素鉴别器，并提供了实验细节和代码。
相关研究

最近的相关研究包括使用深度学习模型进行AAI的研究，如《Speaker-independent acoustic-to-articulatory inversion using deep neural networks》和《An acoustic-to-articulatory inversion mapping based on deep neural networks with encoder-decoder architecture》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问