- 简介之前的研究表明,残差神经网络(ResNet)在说话人验证中表现出色。ResNet模型将时间和频率维度平等对待。它们遵循为图像识别设计的默认步幅配置,其中水平和垂直轴具有相似性。这种方法忽略了语音表示中时间和频率的不对称性。本文解决了这个问题,并寻找了专门针对说话人验证的最佳步幅配置。我们在一个格子图上表示步幅空间,并对时间和频率分辨率对性能的影响进行系统研究,进一步确定了两个最佳点,即Golden Gemini,它作为设计基于2D ResNet的说话人验证模型的指导原则。遵循该原则,一个最先进的ResNet基线模型在VoxCeleb、SITW和CNCeleb数据集上均获得了显著的性能提升,平均EER/minDCF分别降低了7.70%/11.76%,并在不同的网络深度(ResNet18、34、50和101)下减少了16.5%的参数和4.1%的FLOPs。我们称之为Gemini ResNet。进一步的调查揭示了所提出的Golden Gemini操作点在各种训练条件和架构下的功效。此外,我们还提出了一个新的基准,即Gemini DF-ResNet,使用了最先进的模型。
- 图表
- 解决问题本文旨在解决使用ResNet模型进行说话人验证时,时间和频率维度不对称的问题,并寻找特定于说话人验证的最佳步幅配置。
- 关键思路本文通过将步幅空间表示为一个格图,并系统研究时间和频率分辨率对性能的影响,发现了两个最优点,即Golden Gemini,提出了一种新的Gemini ResNet模型,通过使用这些最优点,可以在不同的网络深度下显著提高性能。
- 其它亮点本文提出的Gemini ResNet模型在VoxCeleb、SITW和CNCeleb数据集上实现了7.70% / 11.76%的平均EER / minDCF降低,同时减少了16.5%的参数和4.1%的FLOPs。此外,本文还提出了一个新的基准,即Gemini DF-ResNet。
- 最近在这个领域中,一些相关的研究包括:'Deep Speaker Embeddings for Diarization and Verification','Speaker Recognition on Raw Waveform with SincNet','A Study of Complex Spectral Mapping for Speaker Recognition with Convolutional Neural Networks'等。
沙发等你来抢
去评论
评论
沙发等你来抢