快手研究团队 MMU(Multimedia understanding)联合清华大学研究人员提出了一种基于音频信号的语种识别新方法。该方法自研一种动态多尺度卷积的新型网络结构,通过动态卷积核、局部多尺度学习和全局多尺度池化技术来捕获全局和局部上下文的语种 / 方言信息。目前该论文已经被国际顶级语音会议 Interspeech2021 所接收。

论文链接:https://www.researchgate.net/publication/353652910_Dynamic_Multi-scale_Convolution_for_Dialect_Identification

文章的贡献包括如下 3 点:

1. 第一次将动态卷积核引入语种 / 方言识别领域。

2. 局部多尺度学习,在更细粒度层面上对多尺度特征进行表征学习。

3. 全局多尺度池化,能够聚合模型多个层次的特征。

针对 2020 年东方语种识别 (OLR2020) 挑战赛的 AP20-OLR 语种识别任务,所提语种识别新方法取得了平均代价损失 (Cavg) 为 0.067,等误差率 (EER) 为 6.52% 的成绩。相比 OLR2020 挑战赛中的最优(SOTA,state-of-the-art)识别系统,所提语种识别新方法获得了 9% 的 Cavg 和 45% 的 EER 相对提升,而且模型参数减少了 91%,性能显著优于 SOTA 系统。

内容中包含的图片若涉及版权问题,请及时与我们联系删除