ConPCO: Preserving Phoneme Characteristics for Automatic Pronunciation Assessment Leveraging Contrastive Ordinal Regularization

2024年06月05日
  • 简介
    自动发音评估(APA)可以评估第二语言(L2)学习者在目标语言中的发音熟练程度。现有的方法通常利用回归模型进行熟练度评分预测,其中模型被训练为在特征空间中估计目标值,而不明确考虑音素感知。在本文中,我们提出了一种针对基于回归的APA模型量身定制的对比音位序数正则化器(ConPCO),以生成更具有音素区分能力的特征,同时考虑回归目标之间的序数关系。所提出的ConPCO首先通过对比学习将APA模型的音素表示与音标转录的文本嵌入对齐。然后,在特征空间中通过调节类内和类间音素类别之间的距离来保留音素特征,同时允许输出目标之间的序数关系。我们进一步设计并开发了一个分层APA模型来评估我们的方法的有效性。在speechocean762基准数据集上进行的大量实验表明,与一些尖端基线相比,我们的方法的可行性和功效。
  • 图表
  • 解决问题
    本论文旨在解决第二语言学习者在目标语言中发音熟练度评估的问题。通过提出一种对比音素序数正则化器(ConPCO)来生成更具有音素区分能力的特征,同时考虑回归目标之间的序数关系。
  • 关键思路
    论文提出了一种对比学习方法,将APA模型的音素表示和音素转录的文本嵌入对齐,通过正则化特征空间中音素类别之间的距离,同时允许输出目标之间的序数关系,从而提高了回归模型的性能。
  • 其它亮点
    论文设计了一个层次化的APA模型,并在speechocean762数据集上进行了广泛的实验。结果表明,ConPCO方法比一些前沿的基线方法更有效。此外,论文还提供了开源代码和数据集。
  • 相关研究
    在相关研究方面,最近还有一些工作探索了使用深度学习方法进行语音识别和发音评估,例如'Phoneme-aware Speech Recognition with Multi-task Learning'和'Phoneme-based Speech Recognition with Transformer'。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问