A framework of text-dependent speaker verification for chinese numerical string corpus

2024年05月11日
  • 简介
    这篇文章介绍了中文数字串语料库在说话人验证中的价值,特别是在金融交易中。研究表明,在短语音场景下,文本相关说话人验证(TD-SV)始终优于文本无关说话人验证(TI-SV)。然而,TD-SV可能包括文本信息的验证,而这可能会受到阅读节奏和停顿的负面影响。为了解决这个问题,作者提出了一种增强TD-SV的端到端说话人验证系统,通过解耦说话人和文本信息来实现。该系统由文本嵌入提取器、说话人嵌入提取器和融合模块组成。在文本嵌入提取器中,作者采用了增强型Transformer,并引入了三重损失,包括文本分类损失、连接主义时间分类(CTC)损失和解码器损失;而在说话人嵌入提取器中,作者通过将滑动窗口注意力统计池化(SWASP)与注意力统计池化(ASP)相结合,创建了一种多尺度池化方法。为了缓解数据稀缺的问题,作者录制了一个名为SHALCAS22A(以下简称SHAL)的公开中文数字语料库,可在Open-SLR上访问。此外,作者使用Tacotron2和HiFi-GAN的数据增强技术。作者的方法在Hi-Mia和SHAL上分别实现了49.2%和75.0%的等误差率(EER)性能提升。
  • 图表
  • 解决问题
    本论文旨在提出一种增强文本相关说话人验证的端到端系统,解决文本信息的节奏和停顿对验证结果的负面影响。
  • 关键思路
    该论文提出的解决方案是通过解耦说话人和文本信息来增强文本相关说话人验证,使用增强的Transformer提取文本嵌入,同时结合滑动窗口注意力统计池化和注意力统计池化的多尺度池化方法提取说话人嵌入。
  • 其它亮点
    论文提出了一种三重损失函数,包括文本分类损失、连接时序分类(CTC)损失和解码器损失,用于提取文本嵌入;使用Tacotron2和HiFi-GAN进行数据增强;通过开发一个名为SHALCAS22A的中文数字语音数据集进行实验,该数据集可在Open-SLR上访问;在Hi-Mia和SHAL数据集上,该方法的等误差率(EER)性能分别提高了49.2%和75.0%。
  • 相关研究
    最近的相关研究包括:基于声学和语言特征的说话人验证,基于深度学习的说话人验证,以及文本相关说话人验证。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论