Post-Training Embedding Alignment for Decoupling Enrollment and Runtime Speaker Recognition Models

2024年01月23日
  • 简介
    自动说话人识别(SID)是个人化广泛语音服务的关键步骤。典型的SID系统使用对称的注册验证框架,使用单个模型从离线的注册语音和在线的运行时语音中提取嵌入。由于注册和运行时的不同情况,例如不同的计算和延迟限制,一些应用程序将受益于使用不同模型进行注册和运行时嵌入生成的非对称注册验证框架。为了支持这种非对称SID,其中每个模型可以独立更新,我们提出使用轻量级神经网络将来自两个独立模型的嵌入映射到共享的说话人嵌入空间。我们的结果表明,相对于在共享的说话人logit空间中使用余弦打分,这种方法在许多说话人身份的大型数据集上使用对比损失训练的模型中表现显着优于余弦打分。这个所提出的神经嵌入说话人空间对齐(NESSA)结合只更新一个模型的非对称更新,在标准对称SID方法中实现了更新两个模型所实现性能增益的至少60%。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决语音服务个性化中的自动说话人识别问题,提出一种使用不同模型进行注册和运行时嵌入生成的不对称注册-验证框架,并使用轻量级神经网络将两个独立模型的嵌入映射到共享的说话人嵌入空间的方法。
  • 关键思路
    使用不同的模型进行注册和运行时嵌入生成,并使用轻量级神经网络将两个独立模型的嵌入映射到共享的说话人嵌入空间,以支持不对称的自动说话人识别。
  • 其它亮点
    论文使用对比损失在大型数据集上训练模型,并将该方法与余弦相似度进行比较。结果表明,该方法显著优于余弦相似度,并且只更新一个模型的不对称更新方法可以提供与标准对称自动说话人识别方法更新两个模型相同的性能。
  • 相关研究
    在最近的相关研究中,也有一些关于自动说话人识别的研究,如“Deep Speaker Embeddings for Diarization and Verification”和“Speaker Embeddings using a Deep Convolutional Neural Network”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问