- 简介说话人分离通常被称为在录音中确定“谁何时说话”的任务。直到几年前,所有竞争性方法都是模块化的。基于这种框架的系统在大多数场景下达到了最先进的性能,但在处理重叠语音方面存在重大困难。最近,端到端模型的出现,能够使用单个模型处理说话人分离的所有方面,并在处理重叠语音方面表现更好,引起了高度关注。本论文是在这两种趋势共存的时期框架下进行的。我们描述了一种基于贝叶斯隐马尔可夫模型的系统,用于聚类 x 向量(使用神经网络获得的说话人嵌入),称为 VBx,在不同数据集和挑战中表现出了显着的性能。我们评论其优点和局限性,并在不同相关语料库上评估结果。然后,我们转向端到端神经分离(EEND)方法。由于需要大量训练集来训练这些模型,以及手动注释的分离数据数量不足,妥协解决方案在于人工生成训练数据。我们描述了一种生成类似于实际对话的合成数据的方法,该方法生成“模拟对话”,比使用先前提出的创建“模拟混合物”的方法在训练具有编码器-解码器吸引子(EEND-EDA)的流行模型时表现更好。我们还提出了一种基于 EEND 的新模型,称为 DiaPer,并表明它在处理许多说话人和处理重叠语音时可以比 EEND-EDA 更好地表现。最后,我们比较了基于 VBx 和 DiaPer 的系统在各种语料库上的表现,并评论了每种技术的优点。
-
- 图表
- 解决问题论文旨在解决说话人分离中的重叠语音问题,并比较传统模块化方法和端到端模型的表现。
- 关键思路论文提出了一种基于VBx的贝叶斯隐马尔可夫模型用于聚类说话人嵌入向量,同时提出了一种生成模拟对话数据的方法来训练端到端模型DiaPer,该模型在处理重叠语音和多说话人方面表现更好。
- 其它亮点论文比较了传统模块化方法和端到端模型的性能,提出了一种基于VBx的聚类方法和一种生成模拟对话数据的方法,证明其在处理重叠语音和多说话人方面表现更好。论文使用多个数据集进行实验,并开源了代码。
- 在相关研究方面,最近的工作包括使用深度学习进行说话人分离,如基于交替掩蔽的神经网络模型和使用注意力机制的端到端模型。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流