ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models

2024年01月30日
  • 简介
    本文介绍了ESPnet-SPK,这是一个旨在训练说话人嵌入提取器的工具包,具有多个目标。首先,我们为说话人识别社区的研究人员提供了一个开源平台,使他们能够轻松构建模型。我们提供了几种模型,从x-vector到最近的SKA-TDNN。通过模块化的架构设计,可以轻松开发变体。我们还希望将开发的模型与其他领域相结合,使广泛的研究社区能够轻松地整合最先进的嵌入提取器。可以以现成的方式访问预训练的嵌入提取器,并通过展示其与两个任务的集成来展示工具包的多功能性。另一个目标是将各种自监督学习特征集成在一起。我们发布了一个可复制的配方,在使用ECAPA-TDNN和WavLM-Large的Vox1-O评估协议上实现了0.39%的等误差率。
  • 图表
  • 解决问题
    ESPnet-SPK旨在为说话人识别社区提供一个开源平台,使研究人员能够轻松地构建模型,并使开发的模型与其他领域集成。
  • 关键思路
    ESPnet-SPK通过模块化的架构设计,提供了多种模型,包括x-vector和最近的SKA-TDNN等,易于开发变体。此外,该工具包还集成了多种自监督学习特征。
  • 其它亮点
    论文提供了一个可重现的配方,使用WavLM-Large和ECAPA-TDNN,在Vox1-O评估协议上实现了0.39%的等误差率。此外,论文还展示了该工具包与两个任务的集成,并提供了预训练的嵌入提取器。
  • 相关研究
    最近在这个领域中,还有一些相关研究,例如Speaker Embedding Extraction Using Deep Learning Techniques和Deep Speaker Embeddings for Diarization and Verification,等等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论