Neighborhood Attention Transformer with Progressive Channel Fusion for Speaker Verification

简介

说话人验证中基于Transformer的架构通常需要比ECAPA-TDNN更多的训练数据。因此，最近的研究通常是在VoxCeleb1&2上进行训练的。我们提出了一种基于自注意力的骨干网络，仅在VoxCeleb2上进行训练即可实现竞争性的结果。该网络在邻域注意力和全局注意力之间交替，以捕捉局部和全局特征，然后聚合不同层次的特征，并最终执行注意力统计汇聚。此外，我们采用渐进通道融合策略，在网络加深时扩展通道维度上的感受野。我们在VoxCeleb2上训练了提出的PCF-NAT模型，并在VoxCeleb1和VoxSRC的验证集上进行了评估。浅层PCF-NAT的EER和minDCF平均比同样大小的ECAPA-TDNN低20%以上。深层PCF-NAT在VoxCeleb1-O上实现了低于0.5%的EER。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文提出了一种基于自注意力机制的骨干网络，旨在通过在VoxCeleb2数据集上的训练来实现与ECAPA-TDNN相当的说话人验证性能。
关键思路

论文提出的PCF-NAT模型使用了邻域注意力和全局注意力相结合的方法来捕捉局部和全局特征，并采用渐进式通道融合策略来扩大通道维度的感受野。
其它亮点

PCF-NAT模型在VoxCeleb2数据集上的训练结果比同等规模的ECAPA-TDNN模型的EER和minDCF平均低20%以上。在VoxCeleb1-O数据集上，深层PCF-NAT模型的EER低于0.5%。实验使用了VoxCeleb1&2数据集和VoxSRC的验证集，论文提供了开源代码。
相关研究

近期的相关研究大多使用VoxCeleb1&2数据集进行训练，如ECAPA-TDNN等模型。

Neighborhood Attention Transformer with Progressive Channel Fusion for Speaker Verification

提问交流

提问交流