From Modular to End-to-End Speaker Diarization

简介

说话人分离通常被称为在录音中确定“谁何时说话”的任务。直到几年前，所有竞争性方法都是模块化的。基于这种框架的系统在大多数场景下达到了最先进的性能，但在处理重叠语音方面存在重大困难。最近，端到端模型的出现，能够使用单个模型处理说话人分离的所有方面，并在处理重叠语音方面表现更好，引起了高度关注。本论文是在这两种趋势共存的时期框架下进行的。我们描述了一种基于贝叶斯隐马尔可夫模型的系统，用于聚类 x 向量（使用神经网络获得的说话人嵌入），称为 VBx，在不同数据集和挑战中表现出了显着的性能。我们评论其优点和局限性，并在不同相关语料库上评估结果。然后，我们转向端到端神经分离（EEND）方法。由于需要大量训练集来训练这些模型，以及手动注释的分离数据数量不足，妥协解决方案在于人工生成训练数据。我们描述了一种生成类似于实际对话的合成数据的方法，该方法生成“模拟对话”，比使用先前提出的创建“模拟混合物”的方法在训练具有编码器-解码器吸引子（EEND-EDA）的流行模型时表现更好。我们还提出了一种基于 EEND 的新模型，称为 DiaPer，并表明它在处理许多说话人和处理重叠语音时可以比 EEND-EDA 更好地表现。最后，我们比较了基于 VBx 和 DiaPer 的系统在各种语料库上的表现，并评论了每种技术的优点。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决说话人分离中的重叠语音问题，并比较传统模块化方法和端到端模型的表现。
关键思路

论文提出了一种基于VBx的贝叶斯隐马尔可夫模型用于聚类说话人嵌入向量，同时提出了一种生成模拟对话数据的方法来训练端到端模型DiaPer，该模型在处理重叠语音和多说话人方面表现更好。
其它亮点

论文比较了传统模块化方法和端到端模型的性能，提出了一种基于VBx的聚类方法和一种生成模拟对话数据的方法，证明其在处理重叠语音和多说话人方面表现更好。论文使用多个数据集进行实验，并开源了代码。
相关研究

在相关研究方面，最近的工作包括使用深度学习进行说话人分离，如基于交替掩蔽的神经网络模型和使用注意力机制的端到端模型。

From Modular to End-to-End Speaker Diarization

提问交流

提问交流