Target Speaker Extraction with Curriculum Learning

向作者提问

NEW

简介

本文提出了一种新颖的目标说话人提取（TSE）方法，使用课程学习（CL）技术，解决了区分包含干扰说话人的混合语音中目标说话人声音的挑战。为了进行有效的训练，我们建议设计一个课程，选择逐渐增加的复杂度子集，例如目标和干扰说话人之间的相似度增加，并有策略地选择训练数据。我们的CL策略包括使用预定义的难度测量（例如性别，说话人相似性和信号失真比）和使用TSE的标准目标函数的变体，每个策略都旨在逐渐使模型暴露于更具挑战性的情况。在Libri2talker数据集上的全面测试表明，我们的TSE CL策略提高了性能，结果比没有CL的基线模型高出约1 dB。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决目标说话人提取（TSE）问题，即如何从包含干扰说话人的混合音频中区分出目标说话人的声音。这是一个新问题。
关键思路

本文提出了使用课程学习（CL）技术的方法来解决TSE问题，通过设计选择逐渐增加难度的子集，例如目标和干扰说话人之间的相似度逐渐增加，并且战略性地选择训练数据来进行高效的训练。我们的CL策略包括使用预定义的难度度量（例如性别，说话人相似度和信噪比）和使用TSE的标准目标函数的变体，每种策略都旨在逐渐将模型暴露于更具挑战性的场景中。
其它亮点

本文的亮点包括：使用课程学习技术来解决TSE问题，提高了性能；在Libri2talker数据集上进行了全面的测试；结果明显优于没有使用CL的基准模型约1 dB。
相关研究

最近的相关研究包括：基于深度学习的说话人分离技术的研究；基于注意力机制的说话人分离技术的研究；基于卷积神经网络的说话人分离技术的研究。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问