Target Speaker Extraction with Curriculum Learning

2024年06月12日
  • 简介
    本文提出了一种新颖的目标说话人提取(TSE)方法,使用课程学习(CL)技术,解决了区分包含干扰说话人的混合语音中目标说话人声音的挑战。为了进行有效的训练,我们建议设计一个课程,选择逐渐增加的复杂度子集,例如目标和干扰说话人之间的相似度增加,并有策略地选择训练数据。我们的CL策略包括使用预定义的难度测量(例如性别,说话人相似性和信号失真比)和使用TSE的标准目标函数的变体,每个策略都旨在逐渐使模型暴露于更具挑战性的情况。在Libri2talker数据集上的全面测试表明,我们的TSE CL策略提高了性能,结果比没有CL的基线模型高出约1 dB。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决目标说话人提取(TSE)问题,即如何从包含干扰说话人的混合音频中区分出目标说话人的声音。这是一个新问题。
  • 关键思路
    本文提出了使用课程学习(CL)技术的方法来解决TSE问题,通过设计选择逐渐增加难度的子集,例如目标和干扰说话人之间的相似度逐渐增加,并且战略性地选择训练数据来进行高效的训练。我们的CL策略包括使用预定义的难度度量(例如性别,说话人相似度和信噪比)和使用TSE的标准目标函数的变体,每种策略都旨在逐渐将模型暴露于更具挑战性的场景中。
  • 其它亮点
    本文的亮点包括:使用课程学习技术来解决TSE问题,提高了性能;在Libri2talker数据集上进行了全面的测试;结果明显优于没有使用CL的基准模型约1 dB。
  • 相关研究
    最近的相关研究包括:基于深度学习的说话人分离技术的研究;基于注意力机制的说话人分离技术的研究;基于卷积神经网络的说话人分离技术的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问