SCDNet: Self-supervised Learning Feature-based Speaker Change Detection

2024年06月12日
  • 简介
    Speaker Change Detection(SCD)是用于识别对话中发言者之间边界的任务。在wav2vec 2.0模型在SCD任务上取得成功的基础上,本文进一步研究了自监督学习(SSL)特征在SCD中的应用。具体而言,我们提出了一种名为SCDNet的SCD模型,用于研究各种最先进的SSL模型,包括Hubert、wav2vec 2.0和WavLm。为了分辨出最有效的SSL模型层,我们采用了可学习的加权方法来分析中间表示的有效性。此外,我们还实现了一种基于微调的方法,以进一步比较SSL模型在SCD任务中的特点。此外,我们提出了一种对比学习方法,以减轻微调方法和SCDNet的训练中的过拟合倾向。实验展示了WavLm在SCD任务中的优越性,并证明了SCDNet的良好设计。
  • 图表
  • 解决问题
    本论文旨在探讨自监督学习(SSL)特征在说话人识别(SCD)任务中的应用,通过提出SCDNet模型,比较不同SSL模型的中间表示层的有效性,并进行了对比学习方法以减轻过拟合问题。
  • 关键思路
    SCDNet模型结合了SSL特征和可学习的加权方法,可以有效地进行说话人识别任务。通过比较不同SSL模型的中间表示层,发现WavLm模型在SCD任务中表现最优。
  • 其它亮点
    论文中提出了SCDNet模型,并进行了实验比较不同SSL模型在SCD任务中的表现。实验结果表明,WavLm模型在SCD任务中表现最好。论文还提出了对比学习方法来减轻过拟合问题,并探讨了中间表示层的有效性。论文使用了公开数据集,并提供了开源代码。
  • 相关研究
    最近相关研究包括使用深度学习模型进行说话人识别的研究,以及探索自监督学习在语音识别和说话人识别中的应用的研究。其中一些相关论文包括:“Exploring Speaker Recognition Using Deep Learning Models”和“Self-Supervised Learning for Speech and Audio Processing”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论