Cosine Scoring with Uncertainty for Neural Speaker Embedding

简介

这段摘要讲述说话人表征中的不确定性建模旨在学习语音话语中存在的变异性。虽然传统的余弦相似度计算方法在说话人识别中计算效率高且普遍使用，但缺乏处理不确定性的能力。为了应对这一挑战，本文提出了一种方法，在说话人嵌入前端估计不确定性并将其传播到余弦相似度计算后端。在 VoxCeleb 和 SITW 数据集上进行的实验验证了该方法处理由嵌入估计引起的不确定性的有效性。与传统的余弦相似度相比，它在 EER 和 minDCF 上取得了平均降低 8.5% 和 9.8% 的改进。在实践中，它也具有计算效率高的优点。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决传统的余弦相似度在说话人识别中无法处理不确定性的问题。
关键思路

该论文提出了一种方法，在说话人嵌入前端估计不确定性，并将其传播到余弦相似度计算的后端，以解决不确定性问题。
其它亮点

该方法在VoxCeleb和SITW数据集上进行了实验，相对于传统的余弦相似度，平均EER和minDCF分别降低了8.5％和9.8％。该方法在实践中也具有计算效率。
相关研究

最近的相关研究包括“Deep Speaker Embedding for Diarization, Verification, and Identification”和“Speaker Embeddings using a Siamese Residual LSTM Network”。