- 简介口音分类(AC)是一项任务,用于预测输入话语的口音类型,可以作为口音识别和口音转换的预备步骤。现有的研究通常通过训练神经网络模型来最小化预测的口音标签的分类误差来实现这种分类,这可以作为模型输出获得。由于我们在这种方法中仅从分类损失的角度优化整个模型的训练,因此模型可能会学习从无关的特征(例如个体说话者身份)中预测口音类型,这些特征在测试时并不具有信息量。为了解决这个问题,我们提出了一个GE2E-AC,其中我们训练一个模型来提取输入话语的口音嵌入(AE),使得相同口音类别的AE更加接近,而不是直接最小化分类损失。我们通过实验证明了所提出的GE2E-AC的有效性,与使用传统的基于交叉熵的损失训练的基准模型进行了比较。
-
- 图表
- 解决问题解决问题:如何进行口音分类,避免模型在训练时从不相关的特征中学习,提高模型的泛化能力?
- 关键思路关键思路:通过训练模型提取输入语音的口音嵌入(AE),使同一口音类别的嵌入更接近,而非直接最小化分类损失,从而提高模型的泛化能力。
- 其它亮点亮点:论文提出GE2E-AC模型,相比传统的基于交叉熵损失的模型,在口音分类任务上表现更优。实验使用了多个数据集,如VoxCeleb、CommonVoice等,证明了模型的有效性。研究者还开源了代码。
- 相关研究:在口音分类领域的相关研究有基于深度学习的分类模型、基于语音识别的方法等。其中有些研究的论文标题包括《Speaker and Accent Recognition Using Convolutional Neural Networks》、《A Comprehensive Study of Deep Learning Approaches for Accented Speech Recognition》等。


提问交流