Golden Gemini is All You Need: Finding the Sweet Spots for Speaker Verification

2023年12月06日
  • 简介
    之前的研究表明,残差神经网络(ResNet)在说话人验证中表现出色。ResNet模型将时间和频率维度平等对待。它们遵循为图像识别设计的默认步幅配置,其中水平和垂直轴具有相似性。这种方法忽略了语音表示中时间和频率的不对称性。本文解决了这个问题,并寻找了专门针对说话人验证的最佳步幅配置。我们在一个格子图上表示步幅空间,并对时间和频率分辨率对性能的影响进行系统研究,进一步确定了两个最佳点,即Golden Gemini,它作为设计基于2D ResNet的说话人验证模型的指导原则。遵循该原则,一个最先进的ResNet基线模型在VoxCeleb、SITW和CNCeleb数据集上均获得了显著的性能提升,平均EER/minDCF分别降低了7.70%/11.76%,并在不同的网络深度(ResNet18、34、50和101)下减少了16.5%的参数和4.1%的FLOPs。我们称之为Gemini ResNet。进一步的调查揭示了所提出的Golden Gemini操作点在各种训练条件和架构下的功效。此外,我们还提出了一个新的基准,即Gemini DF-ResNet,使用了最先进的模型。
  • 图表
  • 解决问题
    本文旨在解决使用ResNet模型进行说话人验证时,时间和频率维度不对称的问题,并寻找特定于说话人验证的最佳步幅配置。
  • 关键思路
    本文通过将步幅空间表示为一个格图,并系统研究时间和频率分辨率对性能的影响,发现了两个最优点,即Golden Gemini,提出了一种新的Gemini ResNet模型,通过使用这些最优点,可以在不同的网络深度下显著提高性能。
  • 其它亮点
    本文提出的Gemini ResNet模型在VoxCeleb、SITW和CNCeleb数据集上实现了7.70% / 11.76%的平均EER / minDCF降低,同时减少了16.5%的参数和4.1%的FLOPs。此外,本文还提出了一个新的基准,即Gemini DF-ResNet。
  • 相关研究
    最近在这个领域中,一些相关的研究包括:'Deep Speaker Embeddings for Diarization and Verification','Speaker Recognition on Raw Waveform with SincNet','A Study of Complex Spectral Mapping for Speaker Recognition with Convolutional Neural Networks'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论