Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models

简介

最近自我监督学习(Self-Supervised Learning, SSL)的进展在说话人验证(Speaker Verification, SV)方面显示出了很有希望的结果。然而，缩小与监督系统之间的性能差距仍然是一个持续的挑战。几项研究观察到，来自大规模自动语音识别(ASR)模型的语音表示包含有价值的说话人信息。本文探讨了使用SSL对这些模型进行微调以进行SV的限制，并提出了一个框架，在SSL上使用伪标签通过微调预训练的WavLM(一个语言模型)并使用监督损失来学习说话人表示。初始伪标签是从基于SSL的DINO模型中导出的，并通过对模型嵌入进行聚类来迭代地进行精炼。我们的方法在VoxCeleb1-O上实现了0.99%的EER，创造了自我监督SV的新的最先进水平。由于这种性能接近我们的监督基线0.94%的EER，这个贡献是朝着使用SSL实现SV的监督性能迈出的一步。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在探索使用自监督学习（SSL）在说话人验证（SV）中学习说话人表示的方法，以缩小与监督系统之间的性能差距。
关键思路

本文提出了一种使用预训练的WavLM进行自监督学习的框架，通过伪标签迭代地细化来学习说话人表示。该方法在VoxCeleb1-O数据集上实现了0.99％的EER，接近监督基线的性能。
其它亮点

本文的亮点包括：使用自监督学习方法进行说话人验证，提出了一种使用预训练的WavLM进行自监督学习的框架，使用DINO-based模型生成初始伪标签并通过聚类来迭代地细化，实现了0.99％的EER，接近监督基线的性能。
相关研究

最近的相关研究包括使用SSL方法进行SV的其他尝试，如SimCLR和MoCo。

Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models

提问交流

提问交流