- 简介说话者身份在人类交流中起着重要作用,并且越来越多地应用于社会应用,其中许多应用是通过机器学习的进步实现的。说话者身份感知是一种基本的认知现象,可以广泛地归纳为两个主要任务:识别声音或区分声音。几项研究试图识别身份感知的声学相关性,以确定这样一个任务的显著参数。与其他交际社会信号不同,大部分努力都得出了无效的结论。此外,目前的声音身份处理的神经认知模型认为,感知的基础是声学维度,例如基频、谐噪比和共振峰分散度。然而,这些发现并不能解释自然言语和说话者内部变异。当前自我监督模型的表征空间在各种与语音相关的任务中表现出显著的性能。在这项工作中,我们证明了来自不同家族(例如生成、对比和预测模型)的自我监督表征在说话者识别方面明显优于声学表征。我们还表明,这样一个说话者识别任务可以用于更好地理解这些强大网络中不同层次的声学信息表示的性质。通过评估声学、音素、韵律和语言变体之间的说话者识别准确性,我们报告了模型性能和人类身份感知之间的相似性。我们进一步通过并置模型和人类的编码空间,并挑战使用距离度量作为说话者接近度的代理。最后,我们展示了一些模型可以预测自然刺激期间听觉和语言区域的大脑反应。
- 图表
- 解决问题本论文旨在解决说话人身份识别的问题,探讨使用自监督模型表示说话人身份信息的效果,并比较不同模型的表现。
- 关键思路使用自监督模型的表示方法比传统的基于声学维度的方法更有效,可以更好地识别说话人身份。
- 其它亮点论文使用不同的自监督模型进行实验,比较它们在识别说话人身份方面的表现,同时还探讨了模型的不同层次中声学信息的表示方式。实验结果表明,自监督模型的表现与人类感知有很大的相似性,并且一些模型还可以预测大脑的反应。论文提供了一种新的思路来解决说话人身份识别问题。
- 在最近的相关研究中,也有一些关于使用自监督模型来表示声学信息的文章,如《Unsupervised Learning of Speaker Representations with Mutual Information Neural Estimation》和《Representation Learning for Speaker Recognition Using Deep Neural Networks: A Review》。
沙发等你来抢
去评论
评论
沙发等你来抢