A framework of text-dependent speaker verification for chinese numerical string corpus

2024年05月11日
  • 简介
    这篇文章介绍了一个基于汉语数字语音的说话人验证系统,并指出在短语音场景下,文本相关说话人验证(TD-SV)始终优于文本无关说话人验证(TI-SV)。然而,TD-SV 可能包含文本信息的验证,而这可能会受到阅读节奏和停顿的负面影响。因此,作者提出了一种通过分离说话人和文本信息来增强 TD-SV 的端到端说话人验证系统。该系统由文本嵌入提取器、说话人嵌入提取器和融合模块组成。在文本嵌入提取器中,作者采用了增强型 Transformer,并引入了三重损失,包括文本分类损失、连接时序分类(CTC)损失和解码器损失;而在说话人嵌入提取器中,作者将滑动窗口注意力统计池化(SWASP)与注意力统计池化(ASP)相结合,创建了一种多尺度池化方法。为了缓解数据稀缺问题,作者录制了一个名为 SHALCAS22A 的公开可用的汉语数字语音语料库,并使用 Tacotron2 和 HiFi-GAN 进行了数据增强技术。该方法在 Hi-Mia 和 SHAL 上分别实现了等误差率(EER)性能提升 49.2% 和 75.0%。
  • 图表
  • 解决问题
    本论文旨在提出一种端到端的说话人验证系统,以增强文本相关说话人验证的性能,解决了文本节奏和停顿对验证结果的负面影响。
  • 关键思路
    该系统通过分离说话人和文本信息,利用增强的Transformer和多尺度池化方法来提取文本和说话人嵌入向量,并使用融合模块将它们组合在一起。
  • 其它亮点
    本文提出的方法在公开数据集Hi-Mia和SHAL上分别取得了49.2%和75.0%的等误差率(EER)性能提升。此外,作者还公开了一个中文数字语音数据集SHALCAS22A,并使用Tacotron2和HiFi-GAN进行了数据增强。
  • 相关研究
    在相关研究中,最近的一些论文包括:“Text-Independent Speaker Verification Using 3D Convolutional Neural Networks”和“End-to-End Text-Dependent Speaker Verification Using Segmental Convolutional Neural Networks and Self-Attention Mechanism”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论