- 简介我们提出了一种新颖的说话人无关的声学到发音反演(AAI)模型,克服了传统AAI模型的局限性,这些模型依赖于从受限数据集派生的声学特征。为了解决这些挑战,我们利用预先训练的自监督学习(SSL)模型的表示,更有效地估计AAI过程中电磁发音学(EMA)信号中的全局、局部和运动模式信息。我们使用对抗方法训练我们的模型,并引入了基于注意力的多持续音素鉴别器(MDPD),旨在充分捕捉多通道发音信号之间的复杂关系。我们的方法达到了0.847的Pearson相关系数,标志着说话人无关的AAI模型的最新性能。实现细节和代码可以在线找到。
-
- 图表
- 解决问题本论文旨在解决传统AAI模型依赖于受限数据集派生的声学特征的限制,并提出了一种新的模型来更有效地估计EMA信号中的全局、局部和运动学模式信息。
- 关键思路论文中提出了一种基于预训练的自监督学习模型的表示方法,通过对抗方法训练模型,并引入基于注意力机制的多长度音素鉴别器(MDPD)来完全捕捉多通道关节信号之间的复杂关系,从而实现了说话人无关AAI模型的最新性能。
- 其它亮点该模型在说话人无关AAI模型中实现了最新的性能,达到了0.847的皮尔逊相关系数。论文使用了自监督学习和对抗训练等方法,设计了多长度音素鉴别器,并提供了实验细节和代码。
- 最近的相关研究包括使用深度学习模型进行AAI的研究,如《Speaker-independent acoustic-to-articulatory inversion using deep neural networks》和《An acoustic-to-articulatory inversion mapping based on deep neural networks with encoder-decoder architecture》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流