- 简介自动说话人识别(SID)是个人化广泛语音服务的关键步骤。典型的SID系统使用对称的注册验证框架,使用单个模型从离线的注册语音和在线的运行时语音中提取嵌入。由于注册和运行时的不同情况,例如不同的计算和延迟限制,一些应用程序将受益于使用不同模型进行注册和运行时嵌入生成的非对称注册验证框架。为了支持这种非对称SID,其中每个模型可以独立更新,我们提出使用轻量级神经网络将来自两个独立模型的嵌入映射到共享的说话人嵌入空间。我们的结果表明,相对于在共享的说话人logit空间中使用余弦打分,这种方法在许多说话人身份的大型数据集上使用对比损失训练的模型中表现显着优于余弦打分。这个所提出的神经嵌入说话人空间对齐(NESSA)结合只更新一个模型的非对称更新,在标准对称SID方法中实现了更新两个模型所实现性能增益的至少60%。
-
- 图表
- 解决问题论文旨在解决语音服务个性化中的自动说话人识别问题,提出一种使用不同模型进行注册和运行时嵌入生成的不对称注册-验证框架,并使用轻量级神经网络将两个独立模型的嵌入映射到共享的说话人嵌入空间的方法。
- 关键思路使用不同的模型进行注册和运行时嵌入生成,并使用轻量级神经网络将两个独立模型的嵌入映射到共享的说话人嵌入空间,以支持不对称的自动说话人识别。
- 其它亮点论文使用对比损失在大型数据集上训练模型,并将该方法与余弦相似度进行比较。结果表明,该方法显著优于余弦相似度,并且只更新一个模型的不对称更新方法可以提供与标准对称自动说话人识别方法更新两个模型相同的性能。
- 在最近的相关研究中,也有一些关于自动说话人识别的研究,如“Deep Speaker Embeddings for Diarization and Verification”和“Speaker Embeddings using a Deep Convolutional Neural Network”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流