- 简介最近自我监督学习(Self-Supervised Learning, SSL)的进展在说话人验证(Speaker Verification, SV)方面显示出了很有希望的结果。然而,缩小与监督系统之间的性能差距仍然是一个持续的挑战。几项研究观察到,来自大规模自动语音识别(ASR)模型的语音表示包含有价值的说话人信息。本文探讨了使用SSL对这些模型进行微调以进行SV的限制,并提出了一个框架,在SSL上使用伪标签通过微调预训练的WavLM(一个语言模型)并使用监督损失来学习说话人表示。初始伪标签是从基于SSL的DINO模型中导出的,并通过对模型嵌入进行聚类来迭代地进行精炼。我们的方法在VoxCeleb1-O上实现了0.99%的EER,创造了自我监督SV的新的最先进水平。由于这种性能接近我们的监督基线0.94%的EER,这个贡献是朝着使用SSL实现SV的监督性能迈出的一步。
-
- 图表
- 解决问题本文旨在探索使用自监督学习(SSL)在说话人验证(SV)中学习说话人表示的方法,以缩小与监督系统之间的性能差距。
- 关键思路本文提出了一种使用预训练的WavLM进行自监督学习的框架,通过伪标签迭代地细化来学习说话人表示。该方法在VoxCeleb1-O数据集上实现了0.99%的EER,接近监督基线的性能。
- 其它亮点本文的亮点包括:使用自监督学习方法进行说话人验证,提出了一种使用预训练的WavLM进行自监督学习的框架,使用DINO-based模型生成初始伪标签并通过聚类来迭代地细化,实现了0.99%的EER,接近监督基线的性能。
- 最近的相关研究包括使用SSL方法进行SV的其他尝试,如SimCLR和MoCo。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流