Speakers Unembedded: Embedding-free Approach to Long-form Neural Diarization

简介

本文介绍了一种新的框架，可以在长时间音频中同时使用本地的和全局的EEND来进行语音说话人分离，而无需额外的说话人嵌入框架。相比于传统的一次性EEND方法，这种方法在Callhome美式英语和RT03-CTS数据集上分别实现了相对DER降低13%和10%的显著改进。此外，这种方法还在不需要额外的说话人嵌入框架的情况下，略微改善了EEND-vector-clustering方法。作者还讨论了该方法的计算复杂度，并探索了降低处理时间的策略。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决端到端神经分割（EEND）模型在长音频中的扩展问题，尤其是在具有大量说话者的情况下。
关键思路

本文提出了一种新的框架，将EEND模型应用于长音频的本地和全局分割，无需单独的说话者嵌入，从而实现了更好的说话者分割效果。
其它亮点

该方法在Callhome American English和RT03-CTS数据集上相对DER降低了13％和10％，并且相比于EEND-vector-clustering，无需额外的说话者嵌入。本文还探讨了该框架的计算复杂性，并探索了减少处理时间的策略。
相关研究

近期在这个领域中的相关研究包括：'Speaker Diarization with LSTM'，'Deep Speaker Embeddings for Diarization'，'End-to-End Neural Speaker Diarization with Self-Attention'等。